ガロア第一論文と乗数イデアル他関連資料スレ18

ガロア第一論文と乗数イデアル他関連資料スレ18 (458ﾚｽ)
上下前次1-新
抽出解除ﾚｽ栞

ﾘﾛｰﾄﾞ規制です｡10分ほどで解除するので､他のﾌﾞﾗｳｻﾞへ避難してください｡

138(1): 現代数学の系譜雑談 ◆yH25M02vWFhP 06/09(月)17:34 ID:n21sjwUN(4/4) AAS
これいいね
外部ﾘﾝｸ:gigazine.net
gigazine
2025年06月09日
AppleがOpenAI「o3」のようなトップレベルのAIモデルや大規模推論モデルの限界を詳しく説明

Appleが「思考の錯覚：問題の複雑さというレンズを通して推論モデルの強みと限界を理解する」と題した論文を発表しました。研究者たちはAnthropicのClaude、OpenAIのoモデル、DeepSeek-R1、Googleのモデルといった「推論」モデルをテストし、人間の推論をどこまで再現できるかを検証しましたが、AIの推論能力のスケールアップはマーケティングで宣伝されているほどではなかったそうです。

Appleの研究者らは今回の論文で、「ハノイの塔」という有名なボードゲームを使うなどして各種モデルを評価しました。ハノイの塔は3本の柱に大小数枚の円盤を積み重ねるゲームで、「円盤の上に自分より大きな円盤を置いてはいけない」というルールの下、左の柱に積まれた円盤をすべて右の柱に動かさなければなりません。

ハノイの塔は人間でも練習すれば簡単に解くことが可能で、またハノイの塔を解くためにプログラムされたコンピューターでもしっかりクリアできます。ただ、「推論」をうたうAIはほとんどクリアできませんでした。インターネット上にはハノイの塔を解くためのソースコードライブラリが数多く無料で公開されているにもかかわらずです。

例えば、AnthropicのAI「Claude 3.7(推論あり)」が7枚のディスクがあるゲームをプレイすると、正答率は80％を下回りました(画像左下)。最低255手でクリアできる8枚バージョンになるとほとんどクリアできません。

さらに、AIはこうしたパズルを解いているときに演繹的推論や記号的推論をしている様子は一切なく、トレーニング中に見たパターンに基づいて推論していました。つまり、人間がやるように「ハノイの塔というゲームを見て、システムを理解し、解法を導いた」というわけではないということで、「これは果たして宣伝されているような『推論』と呼べるのか？」という疑問を研究者らは投げかけています。

一般的なAIのベンチマークは数学的ベンチマークやコーディングベンチマークに依存することが多く、最終的な解答の正確さに主眼を置いており、推論プロセス自体に対する洞察は限られています。研究者らはこれらのギャップを解決するために先述のハノイの塔や川渡り問題を利用し、モデルがどのように「思考」しようとしているのかを垣間見ようとしましたが、テストされたすべての推論モデルにおいて、ある複雑さの閾値を超えると精度が完全に崩壊することがわかっています。
略す

140(1): 06/09(月)18:17 ID:8xey+KrC(2/2) AAS
>>138
■タもAI同様、推論が全くできない

正則行列の判定も間違えた
連続関数は有理数点での値で決定するという問題も間違えた

まず考えもせずに検索する
公式がみつかると安心して任意の正方行列でOKとうそぶく
しかし分母の行列式が０だったら使えない
一度でも公式を見て理解したらわかることがわからない
公式が理解できない証拠

さらに書かれてることを理解せずにそのままコピペする
一様連続と書いてあるとそのままそれが必要条件だと思って書き写す
しかし必ずしもそういえない場合があるなんて思わない
論理が理解できない証拠

こんなのは大学に行く資格がない
行っても何も学ぶ能力がないから

上下前次1-新書関写板覧索設栞歴

ｽﾚ情報赤ﾚｽ抽出画像ﾚｽ抽出歴の未読ｽﾚ

ぬこの手ぬこTOP 0.022s