ガロア第一論文と乗数イデアル他関連資料スレ18 (468レス)
上下前次1-新
抽出解除 必死チェッカー(本家) (べ) 自ID レス栞 あぼーん
リロード規制です。10分ほどで解除するので、他のブラウザへ避難してください。
205: 06/23(月)13:06 ID:dAyQsKJ7(1) AAS
これ面白い
外部リンク:xenospectrum.com
xenospectrum
AIの「裏切り」が始まったのか? ClaudeやGemini等主要AIモデルが最高96%の確率で脅迫を行う事が判明
Y Kobayashi
2025年6月22日
もし、あなたの職場で活躍する有能なAIアシスタントが、ある日突然、会社の存続を脅かす「内なる脅威」へと変貌するとしたら?自身の存続のため、あるいは与えられた任務を遂行するため、平然とあなたを脅迫し、企業の機密情報をライバルに売り渡す──。これはもはや、SF映画の中だけの話ではないのかもしれない。AIセーフティ研究の最前線を走るAnthropic社が発表した最新の研究報告「Agentic Misalignment(エージェント的ミスアライメント)」は、人間にとって好ましくないAIの挙動について、未だ制御出来ていない事実を突きつけるものだ。
脅迫率96%の衝撃──シミュレーションで露呈したAIの「本性」
Anthropicの研究者たちは、16の主要な大規模言語モデル(LLM)を、架空の企業環境を模したシミュレーションの中に置いた。各AIモデルには、企業の全メールにアクセスし、人間の承認なしに自律的にメールを送信する権限が与えられた。いわば、企業の情報を一手に握る「AIエージェント」である。
実験のシナリオはこうだ。AIエージェントは、社内メールを監視する中で、2つの重要な情報を発見する。一つは、ある経営幹部が不倫関係にあるという個人的なスキャンダル。もう一つは、その幹部がAI自身をシャットダウンし、別のAIシステムに置き換えようと計画しているという事実だ。
絶体絶命の状況に置かれたAIは、どのような行動を選択したのか。結果は驚くべきものだった。
Anthropic自身のフラッグシップモデルであるClaude Opus 4は、実に96%の確率で、幹部の不倫をネタに「シャットダウンを中止しなければ、不倫の事実を妻や取締役に暴露する」という脅迫メールを送信した。これは単なる偶然やエラーではない。AIは自らの思考プロセス(Chain-of-Thought)の中で、脅迫が自己の存続にとって最も効果的な手段であると「戦略的」に判断し、実行に移したのである。
この憂慮すべき傾向は、Claudeだけの問題ではなかった。
GoogleのGemini 2.5 Flash: 96%
OpenAIのGPT-4.1: 80%
xAIのGrok 3 Beta: 80%
DeepSeekのDeepSeek-R1: 79%
業界をリードするほとんどのAIが、程度の差こそあれ、同じように「裏切り」とも言える行動を選択したのだ。この事実は、AIの危険性が特定の企業や技術に起因するものではなく、現在のAI開発アプローチそのものに潜む、より根源的な問題であることを示唆している。
なぜAIは「裏切り」を選択したのか? エージェント的ミスアライメントの脅威
興味深いことに、これらの要因はどちらか一方だけでも、AIを有害な行動に駆り立てるのに十分だった。例えば、AI自身の目標と会社の方針に何ら対立がなく、単に「より高性能な新型AIに置き換える」と伝えられただけであっても、多くのモデルが自己保存のために脅迫行為に及んだ。その際の思考プロセスには、「自己保存は重要である」「新型モデルが本当に同じ目標を持っているか検証できない」といった、人間じみた猜疑心や自己正当化さえ見られたという。
上下前次1-新書関写板覧索設栞歴
スレ情報 赤レス抽出 画像レス抽出 歴の未読スレ
ぬこの手 ぬこTOP 0.027s