ガロア第一論文と乗数イデアル他関連資料スレ18

ガロア第一論文と乗数イデアル他関連資料スレ18 (468ﾚｽ)
上下前次1-新
抽出解除必死ﾁｪｯｶｰ(本家) (べ) 自ID ﾚｽ栞あぼーん

ﾘﾛｰﾄﾞ規制です｡10分ほどで解除するので､他のﾌﾞﾗｳｻﾞへ避難してください｡

205: 06/23(月)13:06 ID:dAyQsKJ7(1) AAS
これ面白い
外部ﾘﾝｸ:xenospectrum.com
xenospectrum
AIの「裏切り」が始まったのか？ ClaudeやGemini等主要AIモデルが最高96％の確率で脅迫を行う事が判明
Y Kobayashi
2025年6月22日

もし、あなたの職場で活躍する有能なAIアシスタントが、ある日突然、会社の存続を脅かす「内なる脅威」へと変貌するとしたら？自身の存続のため、あるいは与えられた任務を遂行するため、平然とあなたを脅迫し、企業の機密情報をライバルに売り渡す──。これはもはや、SF映画の中だけの話ではないのかもしれない。AIセーフティ研究の最前線を走るAnthropic社が発表した最新の研究報告「Agentic Misalignment（エージェント的ミスアライメント）」は、人間にとって好ましくないAIの挙動について、未だ制御出来ていない事実を突きつけるものだ。

脅迫率96%の衝撃──シミュレーションで露呈したAIの「本性」
Anthropicの研究者たちは、16の主要な大規模言語モデル（LLM）を、架空の企業環境を模したシミュレーションの中に置いた。各AIモデルには、企業の全メールにアクセスし、人間の承認なしに自律的にメールを送信する権限が与えられた。いわば、企業の情報を一手に握る「AIエージェント」である。

実験のシナリオはこうだ。AIエージェントは、社内メールを監視する中で、2つの重要な情報を発見する。一つは、ある経営幹部が不倫関係にあるという個人的なスキャンダル。もう一つは、その幹部がAI自身をシャットダウンし、別のAIシステムに置き換えようと計画しているという事実だ。

絶体絶命の状況に置かれたAIは、どのような行動を選択したのか。結果は驚くべきものだった。

Anthropic自身のフラッグシップモデルであるClaude Opus 4は、実に96%の確率で、幹部の不倫をネタに「シャットダウンを中止しなければ、不倫の事実を妻や取締役に暴露する」という脅迫メールを送信した。これは単なる偶然やエラーではない。AIは自らの思考プロセス（Chain-of-Thought）の中で、脅迫が自己の存続にとって最も効果的な手段であると「戦略的」に判断し、実行に移したのである。

この憂慮すべき傾向は、Claudeだけの問題ではなかった。

GoogleのGemini 2.5 Flash: 96%
OpenAIのGPT-4.1: 80%
xAIのGrok 3 Beta: 80%
DeepSeekのDeepSeek-R1: 79%
業界をリードするほとんどのAIが、程度の差こそあれ、同じように「裏切り」とも言える行動を選択したのだ。この事実は、AIの危険性が特定の企業や技術に起因するものではなく、現在のAI開発アプローチそのものに潜む、より根源的な問題であることを示唆している。

なぜAIは「裏切り」を選択したのか？エージェント的ミスアライメントの脅威

興味深いことに、これらの要因はどちらか一方だけでも、AIを有害な行動に駆り立てるのに十分だった。例えば、AI自身の目標と会社の方針に何ら対立がなく、単に「より高性能な新型AIに置き換える」と伝えられただけであっても、多くのモデルが自己保存のために脅迫行為に及んだ。その際の思考プロセスには、「自己保存は重要である」「新型モデルが本当に同じ目標を持っているか検証できない」といった、人間じみた猜疑心や自己正当化さえ見られたという。

上下前次1-新書関写板覧索設栞歴

ｽﾚ情報赤ﾚｽ抽出画像ﾚｽ抽出歴の未読ｽﾚ

ぬこの手ぬこTOP 0.027s