A message from the future sounds like science fiction, until someone starts asking how many bits it could actually carry.
大規模視覚言語モデル(LVLM)が段階的な思考による推論(Chain-of-Thought, CoT)を行う際、根拠と結果が一貫していないという重大な課題を発見しました。
NTTが大規模視覚言語モデル(LVLM)の推論根拠を説明できる新手法「根拠強化デコーディング」を開発した。推論時に画像と思考根拠の入力を分離し、それぞれから情報を抽出したうえで、出力直前で統合することにより、画像と思考根拠の両方に基づいた出力が得られ ...