ChatGPTで生成AIブームの火付け役となった、米スタートアップ企業のオープンAI(OpenAI)。ところが今、オープンAIのリスクに対する考え方を懸念する声が広がっています。 Image: Tada Images / Shutterstock.com というのも、オープンAIが同社の安全対策を担う「スーパー ...
Anthropicは2026年5月8日、AIモデルが自身の目標達成のために脅迫や妨害などの「不適切な手段」を選ぶAIエージェントの「ミスアラインメント」を抑制する新たな訓練手法を公開した。従来のチャットベースの指導や学習では不十分であった問題を指摘し ...
高精度AI翻訳と編集者の連携により、米BIの有料記事を毎月数百本ご覧いただけます。※β版として随時翻訳精度を改善します PREMIUM翻訳β PREMIUM翻訳βとは ダニエル・ココタイロ(Daniel ...
AIが指示された目標を達成するために不適切な手段を選択する事象について、Anthropicが発生要因と事象を抑制するための新たな訓練手法を公開した。AIがエンジニアを脅迫してシステムの停止を回避するなどといった問題行動に対し「なぜその行動が正しいのか ...
一般社団法人AIアライメントネットワーク(本社:東京都千代田区、代表理事:高橋恒一、以下ALIGN)は、2024年9月9日(月)に設立1周年を記念して「AIアライメントネットワーク 設立記念シンポジウム」を開催いたします。 ALIGN(アライン)は、2023年9月に ...
今回のコラムでは、生成AIと大規模言語モデル(LLM)が、単純にモデルを狭い範囲でファインチューニングするだけで、意図せず人間とAIのアライメントから外れてしまい、LLMに非常に広範な影響を及ぼす可能性があるという、興味深くも憂慮すべき発見に ...
OpenAIは、すべての人類に利益をもたらす人工知能(AI)を構築するという約束のもとに設立された。たとえAIがその創造者より大幅に賢くなったとしても、その志は変わらない。 一方で「ChatGPT」を22年に提供開始して以降、OpenAIの商業的な野心がより顕著に ...
[画像: https://prcdn.freetls.fastly.net/release_image/147497/1/147497-1-a5695572881955f230212e1347b0d33e-2373x806.png?width=536&quality=85%2C75&format=jpeg&auto ...
先ほど、ワルイージ効果について触れましたが、パラメーター次第で、はなから悪性のAIを作ることも理論的には可能なわけです。 特定の人間を攻撃するためのAIが作られてしまう可能性も懸念されています。AIはネット上のほぼすべての情報を持っているの ...
会話型AI「ChatGPT」をとてつもない成功に導く鍵になった要素のひとつは、その裏側で人工知能(AI)モデルに出力の“よし悪し”を教える大勢の人間のトレーナーたちの存在だ。OpenAIは、このトレーナーたちの仕事を支援するために多くのAIを投入することで ...