評価では、複雑な指示やタスクを含む代表的な日本語ベンチマーク「ELYZA-tasks-100」と日本語のマルチターンの対話能力を評価する「Japanese MT-Bench」の2つのベンチマークツールを組み合わせて、平均スコアを比較した。 その結果、今回リコーがモデルマージの ...
自分が使っているLLMの性能はどの程度なのか。そもそもLLMの性能を評価するにはどうすればよいのか。そうした疑問を解消する、LLMの「ベンチマーク」や実施方法を紹介する。 LLMのベンチマークは、LLMの性能を評価するための標準化された手順や指標だ。
Weights & Biases Japan株式会社(以下、W&B Japan)は、日本最大級のLLM日本語能力比較サイト「Nejumi LLMリーダーボード」(https ...
Developers Summit 2026・Dev x PM Day 講演資料まとめ Developers Boost 2025 講演資料まとめ Developers X Summit 2025 講演資料まとめ Developers Summit 2025 FUKUOKA 講演関連資料まとめ Developers Summit 2025 KANSAI 講演関連資料まとめ Developers ...
Sakana AI(株)は6月5日、会計不正検知をはじめとする高度な金融タスクにおける大規模言語モデル(LLM)の性能を測定する日本語金融ベンチマーク「EDINET-Bench」を開発した。データセットをHugging Faceにて、構築ツールおよび評価コードをGitHubにて公開している。
株式会社LegalOn Technologies(本社:東京都渋谷区代表取締役 執行役員・CEO:角田望、以下LegalOn Technologies)は、日本の企業法務実務における大規模言語モデル(LLM)の性能を評価するベンチマークデータセット「Legal Rikai: Open Benchmark」を公開しました。「Legal ...
Microsoft は、オープンソースの Python ライブラリ「AutoGen」で大規模言語モデル(LLM)アプリケーションフレームワークの競争に加わった。 Microsoft の説明によると、AutoGen は LLM ワークフローのオーケストレーション、最適化、自動化を簡素化する ...
Salesforce、世界初のCRM向けLLMベンチマークを発表 企業がCRMシステム向けの生成AIモデルを評価する際にスマートな意思決定の指針となる新しいベンチマークとランキング表が登場 ※本記事は2024年6月18日に米国で公開されたSalesforce Announces the World's First LLM ...
「これが無料でいいの?」ってレベル。2026年4月にGoogleが新しいローカルLLM「Gemma 4」シリーズをリリースしました。Gemma 4シリーズは前世代から大きく性能・機能が向上し、現在、非常に高い評価を得ています。実際に利用して ...
上海AIラボ/上海人工知能研究所、清華大学、香港大学、ハルビン工業大学、北京理工大学、香港科技大学(広州)からなる ...
しかし、上記のように出力を構造化したとしても、出力結果の制約を全て満たすわけではなく、 「⁠LLMをアプリケーションに型安全に組み込める」 とは限りません。実際の開発においては以下のようなケースに遭遇し、修正のためのコードを書くという ...