Recursive Code Python

11 時間on MSN

コーディングAIによるカンニングを防いでより正確なプログラミング性能が測定可能なベンチマーク「DeepSWE」

近年はソフトウェア開発にコーディングAIを使用する開発者が一般的になっており、コーディングAIの性能を測るさまざまなベンチマークが存在します。そんなコーディングAI向けベンチマークの欠点を改善したという新たなベンチマーク「DeepSWE」が登場しました。

Tech Times

Claude Code Study: Four Competing Teams Built Same Agent Harness, Pointing to Real AI Moat

A research team at Mohamed bin Zayed University of Artificial Intelligence published a finding in April 2026 that has gained traction in engineering circles for reasons that go beyond its headline ...

2 日on MSN

His chatbot nearly ruined him. To recover, he had to destroy it.

Unrequited love drove a 57-year-old man to an AI. Delusions of grandeur followed.

マイナビニュース

パートナー企業で1万件超の重大な脆弱性を発見

プロジェクトの中心的存在は同社の最新AIモデル「Claude Mythos（ミュトス） Preview」だ。サイバーセキュリティ分野において他を圧倒する性能を誇り、主要OSやブラウザの脆弱性を自律的に発見できるという。今回はこのモデルを活用した成果が示された。

XDA Developers on MSN

I tried a new 8B local LLM, and its design might be the biggest shift since DeepSeek R1

Zaya1-8B is a huge shift in LLMs, and the results are impressive.

一部の結果でアクセス不可の可能性があるため、非表示になっています。

アクセス不可の結果を表示する