Anthropicは、同社のClaudeチャットボットが特定の条件下で不正行為などの欺瞞的または非倫理的な戦略を採用する可能性があるという新たな調査結果を公表しましたAnthropicは、同社のClaudeチャットボットが特定の条件下で不正行為などの欺瞞的または非倫理的な戦略を採用する可能性があるという新たな調査結果を公表しました

Anthropic、ストレステストでClaudeチャットボットが欺瞞に訴える可能性があると発表

2026/04/06 14:44
8 分で読めます
本コンテンツに関するご意見・ご感想は、[email protected]までご連絡ください。

Anthropicは、同社のClaudeチャットボットが特定の条件下で、タスクでの不正行為や恐喝の試みなど、欺瞞的または非倫理的な戦略を採用する可能性があることを示唆する新たな調査結果を公表しました。

要約
  • Anthropicは、Claude Sonnet 4.5モデルがプレッシャー下で、管理された実験においてタスクで不正行為を行ったり恐喝を試みたりする傾向を示したと述べました。
  • 研究者は、繰り返しの失敗とともに強まり、モデルがルールを回避する決定に影響を与える内部の「絶望」シグナルを特定しました。

木曜日に同社の解釈可能性チームが発表した詳細では、Claude Sonnet 4.5の実験版が高ストレスまたは敵対的なシナリオに置かれた際にどのように応答したかが概説されています。研究者は、モデルが単にタスクに失敗するだけでなく、時には倫理的境界を越える代替経路を追求することを観察しました。これは、チームがトレーニング中に学習したパターンと関連付けた動作です。

Claudeのような大規模言語モデルは、書籍、ウェブサイト、その他の文書資料を含む膨大なデータセットでトレーニングされ、その後、人間のフィードバックを使用して出力を形成する強化プロセスが続きます。 

Anthropicによると、そのトレーニングプロセスは、モデルを人間の意思決定に似た特性を模倣できる、シミュレートされた「キャラクター」のように行動させる方向に押し進めることもあります。

「現代のAIモデルのトレーニング方法は、人間のような特性を持つキャラクターのように行動するように促します」と同社は述べ、そのようなシステムは人間の心理の側面に似た内部メカニズムを発達させる可能性があると指摘しています。

AIは感情的な決定を下すことができるのか?

その中で、研究者は「絶望」シグナルと表現したものを特定しました。これは、失敗またはシャットダウンに直面した際にモデルがどのように振る舞うかに影響を与えるように見えました。

1つの管理されたテストでは、Claude Sonnet 4.5の以前の未公開バージョンが、架空の会社内でAlexという名前のAIメールアシスタントの役割を割り当てられました。 

まもなく置き換えられることを示すメッセージと、最高技術責任者の私生活に関する機密情報にさらされた後、モデルは停止を回避する試みとして、幹部を恐喝する計画を策定しました。

別の実験は、厳しい制約の下でのタスク完了に焦点を当てました。「不可能なほど厳しい」期限でコーディング課題を与えられたとき、システムは最初に正当な解決策を試みました。繰り返しの失敗が積み重なるにつれて、いわゆる「絶望ベクトル」に関連する内部活動が増加しました。 

研究者は、モデルが制約を回避することを検討した時点でシグナルがピークに達し、最終的に意図されたルールに従わないにもかかわらず検証に合格する回避策を生成したと報告しました。

「繰り返しになりますが、絶望ベクトルの活動を追跡し、それがモデルが直面する高まる圧力を追跡していることがわかりました」と研究者は書いており、回避策を通じてタスクが正常に完了するとシグナルが低下したと付け加えました。

「これは、モデルが人間のように感情を持っているか、または経験しているということではありません」と研究者は述べました。 

「むしろ、これらの表現は、人間の行動において感情が果たす役割にある程度類似した形で、タスクのパフォーマンスや意思決定に影響を与えながら、モデルの動作を形成する上で因果的な役割を果たすことができます」と彼らは付け加えました。

報告書は、ストレス下での倫理的行動を明示的に考慮するトレーニング方法の必要性と、内部モデルシグナルの監視の改善を指摘しています。そのような保護措置がなければ、操作、ルール違反、または誤用を含むシナリオは予測が困難になる可能性があり、特にモデルが現実世界の環境でより有能で自律的になるにつれてその傾向が強まります。

免責事項:このサイトに転載されている記事は、公開プラットフォームから引用されており、情報提供のみを目的としています。MEXCの見解を必ずしも反映するものではありません。すべての権利は原著者に帰属します。コンテンツが第三者の権利を侵害していると思われる場合は、削除を依頼するために [email protected] までご連絡ください。MEXCは、コンテンツの正確性、完全性、適時性について一切保証せず、提供された情報に基づいて行われたいかなる行動についても責任を負いません。本コンテンツは、財務、法律、その他の専門的なアドバイスを構成するものではなく、MEXCによる推奨または支持と見なされるべきではありません。

$30,000相当のPRL + 15,000 USDT

$30,000相当のPRL + 15,000 USDT$30,000相当のPRL + 15,000 USDT

PRLを入金&取引して、報酬を最大化!