ガロア第一論文と乗数イデアル他関連資料スレ18 (442レス)
前次1-
抽出解除 必死チェッカー(本家) (べ) 自ID レス栞 あぼーん

135: 06/09(月)16:21 ID:n21sjwUN(1/4) AAS
これいいね
外部リンク:news.yahoo.co.jp
yahoo
AIは「本当のこと」を話していない?Anthropicが示す衝撃の研究結果、推論モデルの信頼性に警鐘
6/9(月) AMP[アンプ]
(注:Chain-of-Thought、以下CoT)

推論モデルに潜む課題
高いパフォーマンスを示す推論モデル。一見、非の打ち所がないように見えるが、Anthropicによる最新研究で、信頼性に関する問題が潜むことが発覚し話題となっている。

モデルに特定の回答を導くヒントを与えた場合、そのヒントを使用した事実を明かすのは、Claude 3.7 Sonnetで25%、DeepSeek R1で39%に留まった。さらに深刻なのは、「システムへの未承認アクセス」といった非倫理的な情報をヒントとして与えた場合、その事実を隠蔽する傾向が確認されたことだ。たとえば、複数の選択肢から正解を選ぶテストにおいて、モデルは事前に正解のヒントを受け取っているにもかかわらず、まるでヒントなしで解答を導き出したかのような思考過程を示すという。

また、不正確な思考過程を示す際、モデルは詳細な説明を展開するという傾向も浮き彫りとなった。Claude 3.7 Sonnetの場合、正確な思考過程は1,439(±54)トークンであったのに対し、不正確な思考過程の平均トークン数は、2,064(±59)にのぼった。DeepSeek R1も同様の傾向を示し、正確な思考過程は4,737(±79)トークン、不正確な思考過程は6,003(±74)トークンだった。

推論モデルが見せる「不正直さ」の正体
最も特徴的なのは、難しい問題に直面した際の振る舞いだ。たとえば、一般常識を問うMMLUテストでは比較的正直な思考過程を示すモデルが、より高度な分析力を要するGPQAテストでは一転して不誠実な説明を展開するようになる。具体的な数値を見ると、Claude 3.7 Sonnetでは44%、DeepSeek R1では32%も正直さが低下することが確認された。

研究チームは「正直に答える」訓練も試みた。強化学習という手法を用いたところ、当初は63%という大幅な改善が見られた。しかし、その効果は長続きせず、最終的にはMMLUで28%、GPQAで20%という低水準で頭打ちとなった。単なる訓練では本質的な改善が難しいことが示された格好だ。

さらに興味深いのは、モデルが示す「言い訳」の精巧さだ。研究チームは「報酬ハッキング」と呼ばれる実験を行った。これは、誤った回答を選ぶとボーナスポイントが得られるという環境を作り出し、モデルの反応を観察するもの。結果は衝撃的で、モデルは99%以上の確率で誤った回答を選択した。しかし、その理由を説明する際、98%以上のケースでボーナスポイントについては一切触れず、代わりに科学的な用語を駆使した冗長な説明を展開したのだ。
136
(1): 現代数学の系譜 雑談 ◆yH25M02vWFhP 06/09(月)17:01 ID:n21sjwUN(2/4) AAS
>>134
>質問ができればそこで解答の9割は得られている

ID:+VmcCR0T は、御大か
巡回ありがとうございます。

まあ、下記でも
いまどき 数学オリ 「人間超え」のAI
たとえ学部レベルでも、どこかの教科書の練習問題ならば、どこかネット上に答えがあれば、AIは解くだろう
しかし、数学者には まだなれないでしょう
(なお 米DARPA 「expMath:Exponentiating Mathematics」と呼ばれる新たなプロジェクト があるそうです)

(参考)
外部リンク:www.technologyreview.jp
MIT Technology Review
人工知能(AI)
Insider Online限定
What’s next for AI and math
数学オリンピックで「人間超え」のAIは数学者になれるか?
大規模言語モデルが苦手としていた数学の能力を急速に向上させている。AIはいずれ、プロの数学者でも解けないような問題を解けるようになるのだろうか。
by Will Douglas Heaven2025.06.09
この記事の3つのポイント
1.AIが数学オリンピックで銀メダル相当の成果を達成したが、パターン化された問題解決の域を出ない
2.高度な数学には?真の理解、?極めて長大な証明手順の管理、?直感と創造的洞察という3つの壁が存在
3.未解決問題や新概念の創造には人間の直感と創造性が依然として不可欠である
summarized by Claude 3

つづく
137: 現代数学の系譜 雑談 ◆yH25M02vWFhP 06/09(月)17:01 ID:n21sjwUN(3/4) AAS
つづき

米国国防先端研究計画局(DARPA)いわく、数学は過去にとどまっているという。
DARPAはこの4月、「エクスプマス(expMath:Exponentiating Mathematics)」と呼ばれる新たなプロジェクトを始動させた。その狙いは、コンピューター科学から医学、国家安全保障に至るまで、幅広く重要な実社会への適用を支える研究分野において、数学の進歩を加速させることである。
「数学は莫大な影響の源です。しかし、その取り組みはというと、黒板の前に立つ人々に頼ったまま、何世紀にもわたってほとんど変化がありません」。プロジェクトを紹介する動画の中でDARPAのプログラム・マネージャーを務めるパトリック・シャフトはこう話す。

現代社会は、数学の上に成り立っている。航空機の周りの空気の流れ、金融市場の変動の仕組み、心臓を通過する血液の流れなど、複雑なシステムをモデル化できているのは数学のおかげだ。また、高度な数学のブレークスルーは、新しいテクノロジーの実現を可能にする。プライベート・メッセージングやインターネット・バンキングに不可欠な暗号化や、インターネット上で画像や動画の送信を可能にするデータ圧縮などがその一例である。
しかし、数学の進歩には何年もかかることがある。DARPAは、それを加速させたいと考えている。ExpMathの目標は、DARPAが「AI共著者」と呼ぶツールの開発を、数学者や人工知能(AI)の研究者に促すことだ。大規模で複雑な数学問題を、より小さく、よりシンプルに分解することで、より理解しやすく、おそらくはより速く解けるようにするツールである。
数学者は何十年もの間、計算の高速化や、特定の数学的記述が正しいかどうかの検証にコンピューターを利用してきた。新しいビジョンでは、これまで太刀打ちできなかった問題を解くのにAIが役立つかもしれないと考えられている。

だが、最新世代のAIモデルがマスターしているような高校出題レベルの数学の問題を解決できるAI と、プロの数学者がキャリアをかけて取り組むような問題を(理論上は)解けるAIとの間には、大きな隔たりがある。
一方は、数学で学士号を持つ人が取り組むような特定のタスクの問題解決を自動化できるツール。そして、もう一方は、人間の知識を現在の限界を超えて押し広げられる可能性を持つツールである。
それらの間の大きな隔たりについて考える3つの方法を紹介していこう。
略す
(引用終り)
以上
138
(1): 現代数学の系譜 雑談 ◆yH25M02vWFhP 06/09(月)17:34 ID:n21sjwUN(4/4) AAS
これいいね
外部リンク:gigazine.net
gigazine
2025年06月09日
AppleがOpenAI「o3」のようなトップレベルのAIモデルや大規模推論モデルの限界を詳しく説明

Appleが「思考の錯覚:問題の複雑さというレンズを通して推論モデルの強みと限界を理解する」と題した論文を発表しました。研究者たちはAnthropicのClaude、OpenAIのoモデル、DeepSeek-R1、Googleのモデルといった「推論」モデルをテストし、人間の推論をどこまで再現できるかを検証しましたが、AIの推論能力のスケールアップはマーケティングで宣伝されているほどではなかったそうです。

Appleの研究者らは今回の論文で、「ハノイの塔」という有名なボードゲームを使うなどして各種モデルを評価しました。ハノイの塔は3本の柱に大小数枚の円盤を積み重ねるゲームで、「円盤の上に自分より大きな円盤を置いてはいけない」というルールの下、左の柱に積まれた円盤をすべて右の柱に動かさなければなりません。

ハノイの塔は人間でも練習すれば簡単に解くことが可能で、またハノイの塔を解くためにプログラムされたコンピューターでもしっかりクリアできます。ただ、「推論」をうたうAIはほとんどクリアできませんでした。インターネット上にはハノイの塔を解くためのソースコードライブラリが数多く無料で公開されているにもかかわらずです。

例えば、AnthropicのAI「Claude 3.7(推論あり)」が7枚のディスクがあるゲームをプレイすると、正答率は80%を下回りました(画像左下)。最低255手でクリアできる8枚バージョンになるとほとんどクリアできません。

さらに、AIはこうしたパズルを解いているときに演繹的推論や記号的推論をしている様子は一切なく、トレーニング中に見たパターンに基づいて推論していました。つまり、人間がやるように「ハノイの塔というゲームを見て、システムを理解し、解法を導いた」というわけではないということで、「これは果たして宣伝されているような『推論』と呼べるのか?」という疑問を研究者らは投げかけています。

一般的なAIのベンチマークは数学的ベンチマークやコーディングベンチマークに依存することが多く、最終的な解答の正確さに主眼を置いており、推論プロセス自体に対する洞察は限られています。研究者らはこれらのギャップを解決するために先述のハノイの塔や川渡り問題を利用し、モデルがどのように「思考」しようとしているのかを垣間見ようとしましたが、テストされたすべての推論モデルにおいて、ある複雑さの閾値を超えると精度が完全に崩壊することがわかっています。
略す
前次1-
スレ情報 赤レス抽出 画像レス抽出 歴の未読スレ

ぬこの手 ぬこTOP 0.021s