近年はソフトウェア開発にコーディングAIを使用する開発者が一般的になっており、コーディングAIの性能を測るさまざまなベンチマークが存在します。そんなコーディングAI向けベンチマークの欠点を改善したという新たなベンチマーク「DeepSWE」が登場しました。
ソフトウェアの脆弱(ぜいじゃく)性を探す作業はこれまで、専門知識を持つセキュリティ研究者がコードを読み、問題が本当に悪用可能かどうかを検証するという時間のかかる作業でした。しかし、Anthropicが開発した高性能AI「Claude Mythos Preview」は、脆弱性の発見だけでなく実際に悪用できるかどうかの検証まで高い精度で行えるとされています。Claude Mythos Previewの ...