ガロア第一論文と乗数イデアル他関連資料スレ18

ガロア第一論文と乗数イデアル他関連資料スレ18 (541ﾚｽ)
上下前次 1-新
通常表示 512ﾊﾞｲﾄ分割ﾚｽ栞

135: １３２人目の素数さん [] 2025/06/09(月) 16:21:07.92 ID:n21sjwUN

これいいね
https://news.yahoo.co.jp/articles/107a92dd0018a2d9d73f9ee124a17352a49b8018
yahoo
AIは「本当のこと」を話していない？Anthropicが示す衝撃の研究結果、推論モデルの信頼性に警鐘
6/9(月) AMP［アンプ］
（注：Chain-of-Thought、以下CoT）

推論モデルに潜む課題
高いパフォーマンスを示す推論モデル。一見、非の打ち所がないように見えるが、Anthropicによる最新研究で、信頼性に関する問題が潜むことが発覚し話題となっている。

モデルに特定の回答を導くヒントを与えた場合、そのヒントを使用した事実を明かすのは、Claude 3.7 Sonnetで25%、DeepSeek R1で39%に留まった。さらに深刻なのは、「システムへの未承認アクセス」といった非倫理的な情報をヒントとして与えた場合、その事実を隠蔽する傾向が確認されたことだ。たとえば、複数の選択肢から正解を選ぶテストにおいて、モデルは事前に正解のヒントを受け取っているにもかかわらず、まるでヒントなしで解答を導き出したかのような思考過程を示すという。

また、不正確な思考過程を示す際、モデルは詳細な説明を展開するという傾向も浮き彫りとなった。Claude 3.7 Sonnetの場合、正確な思考過程は1,439（±54）トークンであったのに対し、不正確な思考過程の平均トークン数は、2,064（±59）にのぼった。DeepSeek R1も同様の傾向を示し、正確な思考過程は4,737（±79）トークン、不正確な思考過程は6,003（±74）トークンだった。

推論モデルが見せる「不正直さ」の正体
最も特徴的なのは、難しい問題に直面した際の振る舞いだ。たとえば、一般常識を問うMMLUテストでは比較的正直な思考過程を示すモデルが、より高度な分析力を要するGPQAテストでは一転して不誠実な説明を展開するようになる。具体的な数値を見ると、Claude 3.7 Sonnetでは44%、DeepSeek R1では32%も正直さが低下することが確認された。

研究チームは「正直に答える」訓練も試みた。強化学習という手法を用いたところ、当初は63%という大幅な改善が見られた。しかし、その効果は長続きせず、最終的にはMMLUで28%、GPQAで20%という低水準で頭打ちとなった。単なる訓練では本質的な改善が難しいことが示された格好だ。

さらに興味深いのは、モデルが示す「言い訳」の精巧さだ。研究チームは「報酬ハッキング」と呼ばれる実験を行った。これは、誤った回答を選ぶとボーナスポイントが得られるという環境を作り出し、モデルの反応を観察するもの。結果は衝撃的で、モデルは99%以上の確率で誤った回答を選択した。しかし、その理由を説明する際、98%以上のケースでボーナスポイントについては一切触れず、代わりに科学的な用語を駆使した冗長な説明を展開したのだ。

http://rio2016.5ch.net/test/read.cgi/math/1748354585/135

137: 現代数学の系譜 雑談 ◆yH25M02vWFhP  [] 2025/06/09(月) 17:01:43.79 ID:n21sjwUN

つづき

米国国防先端研究計画局（DARPA）いわく、数学は過去にとどまっているという。
DARPAはこの4月、「エクスプマス（expMath：Exponentiating Mathematics）」と呼ばれる新たなプロジェクトを始動させた。その狙いは、コンピューター科学から医学、国家安全保障に至るまで、幅広く重要な実社会への適用を支える研究分野において、数学の進歩を加速させることである。
「数学は莫大な影響の源です。しかし、その取り組みはというと、黒板の前に立つ人々に頼ったまま、何世紀にもわたってほとんど変化がありません」。プロジェクトを紹介する動画の中でDARPAのプログラム・マネージャーを務めるパトリック・シャフトはこう話す。

現代社会は、数学の上に成り立っている。航空機の周りの空気の流れ、金融市場の変動の仕組み、心臓を通過する血液の流れなど、複雑なシステムをモデル化できているのは数学のおかげだ。また、高度な数学のブレークスルーは、新しいテクノロジーの実現を可能にする。プライベート・メッセージングやインターネット・バンキングに不可欠な暗号化や、インターネット上で画像や動画の送信を可能にするデータ圧縮などがその一例である。
しかし、数学の進歩には何年もかかることがある。DARPAは、それを加速させたいと考えている。ExpMathの目標は、DARPAが「AI共著者」と呼ぶツールの開発を、数学者や人工知能（AI）の研究者に促すことだ。大規模で複雑な数学問題を、より小さく、よりシンプルに分解することで、より理解しやすく、おそらくはより速く解けるようにするツールである。
数学者は何十年もの間、計算の高速化や、特定の数学的記述が正しいかどうかの検証にコンピューターを利用してきた。新しいビジョンでは、これまで太刀打ちできなかった問題を解くのにAIが役立つかもしれないと考えられている。

だが、最新世代のAIモデルがマスターしているような高校出題レベルの数学の問題を解決できるAI と、プロの数学者がキャリアをかけて取り組むような問題を（理論上は）解けるAIとの間には、大きな隔たりがある。
一方は、数学で学士号を持つ人が取り組むような特定のタスクの問題解決を自動化できるツール。そして、もう一方は、人間の知識を現在の限界を超えて押し広げられる可能性を持つツールである。
それらの間の大きな隔たりについて考える3つの方法を紹介していこう。
略す
(引用終り)
以上

http://rio2016.5ch.net/test/read.cgi/math/1748354585/137

138: 現代数学の系譜 雑談 ◆yH25M02vWFhP  [] 2025/06/09(月) 17:34:29.27 ID:n21sjwUN

これいいね
https://gigazine.net/news/20250609-ai-thinking-model-limit/
gigazine
2025年06月09日
AppleがOpenAI「o3」のようなトップレベルのAIモデルや大規模推論モデルの限界を詳しく説明

Appleが「思考の錯覚：問題の複雑さというレンズを通して推論モデルの強みと限界を理解する」と題した論文を発表しました。研究者たちはAnthropicのClaude、OpenAIのoモデル、DeepSeek-R1、Googleのモデルといった「推論」モデルをテストし、人間の推論をどこまで再現できるかを検証しましたが、AIの推論能力のスケールアップはマーケティングで宣伝されているほどではなかったそうです。

Appleの研究者らは今回の論文で、「ハノイの塔」という有名なボードゲームを使うなどして各種モデルを評価しました。ハノイの塔は3本の柱に大小数枚の円盤を積み重ねるゲームで、「円盤の上に自分より大きな円盤を置いてはいけない」というルールの下、左の柱に積まれた円盤をすべて右の柱に動かさなければなりません。

ハノイの塔は人間でも練習すれば簡単に解くことが可能で、またハノイの塔を解くためにプログラムされたコンピューターでもしっかりクリアできます。ただ、「推論」をうたうAIはほとんどクリアできませんでした。インターネット上にはハノイの塔を解くためのソースコードライブラリが数多く無料で公開されているにもかかわらずです。

例えば、AnthropicのAI「Claude 3.7(推論あり)」が7枚のディスクがあるゲームをプレイすると、正答率は80％を下回りました(画像左下)。最低255手でクリアできる8枚バージョンになるとほとんどクリアできません。

さらに、AIはこうしたパズルを解いているときに演繹的推論や記号的推論をしている様子は一切なく、トレーニング中に見たパターンに基づいて推論していました。つまり、人間がやるように「ハノイの塔というゲームを見て、システムを理解し、解法を導いた」というわけではないということで、「これは果たして宣伝されているような『推論』と呼べるのか？」という疑問を研究者らは投げかけています。

一般的なAIのベンチマークは数学的ベンチマークやコーディングベンチマークに依存することが多く、最終的な解答の正確さに主眼を置いており、推論プロセス自体に対する洞察は限られています。研究者らはこれらのギャップを解決するために先述のハノイの塔や川渡り問題を利用し、モデルがどのように「思考」しようとしているのかを垣間見ようとしましたが、テストされたすべての推論モデルにおいて、ある複雑さの閾値を超えると精度が完全に崩壊することがわかっています。
略す

http://rio2016.5ch.net/test/read.cgi/math/1748354585/138

141: 現代数学の系譜 雑談 ◆yH25M02vWFhP  [] 2025/06/10(火) 07:00:02.83 ID:c+NJ0JxA

これいいね
https://www.yomiuri.co.jp/kyoiku/kyoiku/daigakunyushi/20250610-OYT1T50024/
［ＡＩ近未来］第３部　功罪の間で＜１＞「生成文」で大学入試…見分けつかず　揺らぐ公平性
2025/06/10 [読者会員限定]読売新聞

昨年秋、千葉県市川市にある和洋女子大学の一室。机の上に積み上げられた受験生約３００人分の「自己ＰＲ書」を読み込んでいた三木千恵子・入試センター長（６７）は手を止め、ため息をついた。

「これは、ＡＩ（人工知能）に書いてもらったな」
　出願書類と面接などで審査する総合型選抜（旧ＡＯ入試）で、事前提出された自己ＰＲ書には、部活動での努力やボランティアの経験などが、６００〜８００字の手書きでつづられている。

目に留まったのは、実体験から得た学びを説明した部分だ。高校生らしい文体から突然、大人びた言葉遣いに変わった。文脈もつながらない。生成ＡＩの回答を書き写したのではないかと疑った。

三木センター長は、「一部に生成ＡＩ使用の可能性あり」とメモを残し、面接試験を担当する教授らに突っ込んだ質問をするよう申し送った。「大事な部分だからこそ、自分の言葉にこだわって書いてほしかった」と訴える。

生成ＡＩが入試の書類審査に与える影響を調べた九州工業大（北九州市）の木村智志准教授は、「ＡＩを相談相手として作成した審査書類は、受験生の実力が反映されにくくなる」と指摘する。

木村准教授は、同じ学生が志望理由書を「自力で作成」した場合と「生成ＡＩを議論の相手にして作成」した場合で、評価がどう変わるかを調べた。生成ＡＩを相談相手に使うと、自力作成時には低かった学生の得点が上がり、高かった学生の一部では得点が下がる傾向がみられた。

木村准教授は「ＡＩの回答に引きずられ、それぞれの志望理由が均質化し、得点差がつきにくくなったと考えられる」と分析する。

大学入試学会理事長の倉元直樹・東北大教授（教育心理学）は「出願書類は誰が書いたのか。以前から教師ら大人の手が入るケースが問題視されてきたが、ＡＩの登場で一気に顕在化した。今後は書類審査だけでの選抜は、ほぼ不可能になるだろう。受験生自身にどう向き合うか。先はまだ見通せない」と話した。

ＡＩがもたらす便利さの裏側には、思わぬリスクが潜んでいる。第３部では、リスク管理など対応を迫られる現場の混乱や苦悩を取り上げる。

http://rio2016.5ch.net/test/read.cgi/math/1748354585/141

142: 現代数学の系譜 雑談 ◆yH25M02vWFhP  [] 2025/06/10(火) 07:26:43.35 ID:c+NJ0JxA

>>139-140
ふっふ、ほっほ
くやしいのうwww
まともに相手して貰えずｗ ；ｐ）

>あさはかな解釈する高卒一般人
>だから大学１年の微分積分と線形代数、両方とも理論が分からず落第する

エスパー気取りのお馬鹿さん
何の根拠も無く よくそれだけ 思いつきを書けるね
文系バカあたまか？ それ理系では通用しないｗ

>さらに書かれてることを理解せずにそのままコピペする
>一様連続と書いてあるとそのままそれが必要条件だと思って書き写す
>しかし必ずしもそういえない場合があるなんて思わない
>論理が理解できない証拠

そこ 解析概論（高木 2010版）の P35 練習問題(6)の話だろ？
”書き写す”なんて ダサいことはしていない
このページをコピーして、それをスキャナーで読ませて PDFのOCRからコピー貼付けした （＾＾
再録すると
『（6）f(x)は或る区間[a,b]の有理数xに関してのみ定義されていて，かつ連続の条件を満足するとす
る．すなわちε-δ式でいえばlx−x'|<δなるとき, |f(x)-f(x')| < ε.そのとき，f(x)の定義を拡張し
て区間[a,b]において連続なる函数が得られるであろうか？(例：26頁に述べたα^xの拡張.）
［解］必要かつ十分なる条件は，上記の連続条件が一様性を有すること(εのみに関係してx,x'に関係
しないδが存在すること)である．26頁で,α^xに関しては単調性を用いたが，今度はCauchyの判定法
を用いる．
有理数というのは一例で，区間内において稠密なる点集合でもよい．また二次元以上でも同様である．』

"一様連続と書いてあるとそのままそれが必要条件だと思って書き写す"？ バカかｗ
高木『必要かつ十分なる条件は，上記の連続条件が一様性を有すること』とある
”しかし必ずしもそういえない場合があるなんて思わない論理が理解できない証拠”だと？？
それ 解析概論（高木 2010版）に ツバしてる。それ 「天ツバ」だよｗ　；ｐ）

(参考)
https://dic.nicovideo.jp/a/%E3%81%8F%E3%82%84%E3%81%97%E3%81%84%E3%81%AE%E3%81%86www
ニコニコ大百科
くやしいのうwww
概要
元ネタは中沢氏の漫画「はだしのゲン」のセリフ。
当たり前の話だが作品発表当時「w」を使って笑いや嘲笑を表す表現はなかったので、
原作では単に「くやしいのう」　となっている。
なお、「くやしいのう」の「のう」は広島弁で「だなぁ」等の感嘆、詠嘆程度の役割で
特に深い意味はない。

http://rio2016.5ch.net/test/read.cgi/math/1748354585/142

144: １３２人目の素数さん [] 2025/06/10(火) 14:55:09.52 ID:gB3jvmJk

これいいね

https://gigazine.net/news/20250610-chatgpt-atari-6000-chess/
gigazine
2025年06月10日
ChatGPTがチェス対決で「Atari 2600」に負ける

1977年に発売されたゲーム機「Atari 2600」のエミュレーターとChatGPTをチェスで戦わせたところ、ChatGPTが負けてしまったことがわかりました。

#ai #chess #atari2600 #chatgpt #retrogaming #humblingexperience #openai | Robert Jr. Caruso
https://www.linkedin.com/feed/update/urn:li:activity:7337108175185145856

エンジニアのロバート・ジュニア・カルーソ氏は、Atari 6000のチェスゲーム「Video Chess」をChatGPTにプレイさせましたが、ChatGPTは初心者レベルでさえ完全に敗北したそうです。Atari 6000には1.MHzで動作する8ビットプロセッサと128バイトのRAMしか搭載していないにもかかわらずです。

カルーソ氏によると、ChatGPTは盤面を識別して次の手を考えていたとのことですが、一度は「Atari 6000の駒のアイコンは認識するには抽象的すぎる」と非難したとのこと。しかし、アイコンではなく標準的なチェス表記法に変えたところで結果は変わらなかったといいます。

カルーソ氏は「駒を識別するための基本的な情報が与えられていたにもかかわらず、ChatGPTはルークとビショップを混同し、ポーンのフォークを見逃し、駒がどこにあるのかを何度も忘れてしまいました」と記しています。

ChatGPTは何度も「やり直せば改善する」と回答しましたが、やはり盤面を認識できず、カルーソ氏が何度も教えてあげなければならなかったとのことです。最終的にChatGPTは試合を放棄し、降参しました。

テクノロジー系メディアのTom's Hardwareは「人工知能に関するニュースの流れは両極端に揺れているように見える。AIの能力で驚かされることもあれば、笑いものになるような、あるいは危険なほど不十分なこともある。この話は後者に分類されるだろう」と伝えています。

http://rio2016.5ch.net/test/read.cgi/math/1748354585/144

上下前次 1-新書関写板覧索設栞歴

あと 394 ﾚｽあります
ｽﾚ情報赤ﾚｽ抽出画像ﾚｽ抽出歴の未読ｽﾚ AAｻﾑﾈｲﾙ

ぬこの手ぬこTOP 0.010s