近年はソフトウェア開発にコーディングAIを使用する開発者が一般的になっており、コーディングAIの性能を測るさまざまなベンチマークが存在します。そんなコーディングAI向けベンチマークの欠点を改善したという新たなベンチマーク「DeepSWE」が登場しました。
A research team at Mohamed bin Zayed University of Artificial Intelligence published a finding in April 2026 that has gained traction in engineering circles for reasons that go beyond its headline ...
Unrequited love drove a 57-year-old man to an AI. Delusions of grandeur followed.
プロジェクトの中心的存在は同社の最新AIモデル「Claude Mythos(ミュトス) Preview」だ。サイバーセキュリティ分野において他を圧倒する性能を誇り、主要OSやブラウザの脆弱性を自律的に発見できるという。 今回はこのモデルを活用した成果が示された。
XDA Developers on MSN
I tried a new 8B local LLM, and its design might be the biggest shift since DeepSeek R1
Zaya1-8B is a huge shift in LLMs, and the results are impressive.
一部の結果でアクセス不可の可能性があるため、非表示になっています。
アクセス不可の結果を表示する