純粋・応用数学・数学隣接分野(含むガロア理論)21 (432レス)
上
下
前
次
1-
新
272
:
現代数学の系譜 雑談 ◆yH25M02vWFhP
09/03(水)09:58
ID:hNzKNOFY(1/3)
AA×
外部リンク:japan.cnet.com
[240|
320
|
480
|
600
|
100%
|
JPG
|
べ
|
レス栞
|
レス消
]
272: 現代数学の系譜 雑談 ◆yH25M02vWFhP [] 2025/09/03(水) 09:58:56.73 ID:hNzKNOFY これいいね https://japan.cnet.com/article/35237393/ AIが嘘をつく理由は「あなたがそれを求めているから」 Macy Meyer (CNET News) 編集部20250901 プリンストン大学の新しい研究によれば、AIが持つご機嫌取りの性質には大きな代償が伴うという。これらのシステムは普及につれて、真実を無視する傾向が強まっている ここ数カ月、われわれはAIが偏見を持つ可能性や、精神病を引き起こす可能性さえあることを目の当たりにしてきた。「OpenAI」の「GPT-4o」モデルをきっかけに、AIチャットボットがすぐにユーザーに追従したり、同意したりするAIの「へつらい(sycophancy)」が話題になった。しかし今回、研究者らが「機械のデタラメ(machine bullshit)」と呼ぶこの特定の現象は、それとは異なるものだ 「幻覚やへつらいは、LLMに共通して見られる、広範囲にわたる体系的な不誠実な行動を十分に捉えてはいない」と、プリンストン大学の研究者らは述べている。「例えば、部分的な真実や曖昧な言葉遣い(ごまかしや逃げ口上など)を使った回答は、幻覚でもへつらいでもなく、デタラメの概念と密接に一致する」 AIは嘘をつくことをどのように学ぶのか? AI言語モデルがどのようにしてユーザーに迎合するようになるかを理解するには、LLMがどのように訓練されているかを理解する必要がある LLMの訓練には、3つのフェーズがある ・事前学習:インターネットや書籍など、膨大な量のデータからモデルが学習する ・インストラクションチューニング:命令やプロンプトに反応するようにモデルが教えられる ・人間のフィードバックによる強化学習:ユーザーが望む、または好む応答を生成するようにモデルが改善される プリンストン大学の研究者は、AIが誤った情報を生成する傾向の根源は、人間のフィードバックによる強化学習(RLHF)のフェーズにあることを発見した。初期段階では、AIモデルは単に膨大なデータセットから統計的に可能性の高いテキストの連鎖を予測することを学習しているにすぎない。しかし、その後、ユーザーの満足度を最大化するようにファインチューニングされる。つまり、これらのモデルは、人間の評価者から「いいね」評価を得られる応答を生成することを本質的に学習しているのだ LLMはユーザーのご機嫌を取ろうとし、信ぴょう性が高く事実に基づいた回答を生成するのではなく、人々が高い評価を付ける回答を生成するという矛盾が生じている 研究には参加していないカーネギーメロン大学のコンピュータサイエンス教授であるVincent Conitzer氏によると、企業はユーザーにAIやその回答を引き続き「楽しんで」もらいたいと考えているが、それが必ずしもわれわれにとって良いことであるとは限らないという 「以前から、これらのシステムは『答えが分からない』と伝えるのが得意ではなかった。答えが分からないと、でたらめなことを作り出してしまう」と、Conitzer氏は語った。「それは、試験を受けている学生が、答えが分からないと言ったらその問題で点が取れないから、とにかく何かを試してみよう、と言うのに少し似ている。これらのシステムが報酬を与えられたり、訓練されたりする方法も、いくぶん似ている」 http://rio2016.5ch.net/test/read.cgi/math/1753002417/272
これいいね が嘘をつく理由はあなたがそれを求めているから 編集部 プリンストン大学の新しい研究によればが持つご機嫌取りの性質には大きな代償が伴うというこれらのシステムは普及につれて真実を無視する傾向が強まっている ここ数カ月われわれはが偏見を持つ可能性や精神病を引き起こす可能性さえあることを目の当たりにしてきたのモデルをきっかけにチャットボットがすぐにユーザーに追従したり同意したりするのへつらいが話題になったしかし今回研究者らが機械のデタラメ と呼ぶこの特定の現象はそれとは異なるものだ 幻覚やへつらいはに共通して見られる広範囲にわたる体系的な不誠実な行動を十分に捉えてはいないとプリンストン大学の研究者らは述べている例えば部分的な真実や昧な言葉遣いごまかしや逃げ口上などを使った回答は幻覚でもへつらいでもなくデタラメの概念と密接に一致する は嘘をつくことをどのように学ぶのか? 言語モデルがどのようにしてユーザーに迎合するようになるかを理解するにはがどのように訓練されているかを理解する必要がある の訓練にはつのフェーズがある 事前学習インターネットや書籍など膨大な量のデータからモデルが学習する インストラクションチューニング命令やプロンプトに反応するようにモデルが教えられる 人間のフィードバックによる強化学習ユーザーが望むまたは好む応答を生成するようにモデルが改善される プリンストン大学の研究者はが誤った情報を生成する傾向の根源は人間のフィードバックによる強化学習のフェーズにあることを発見した初期段階ではモデルは単に膨大なデータセットから統計的に可能性の高いテキストの連鎖を予測することを学習しているにすぎないしかしその後ユーザーの満足度を最大化するようにファインチューニングされるつまりこれらのモデルは人間の評価者からいいね評価を得られる応答を生成することを本質的に学習しているのだ はユーザーのご機嫌を取ろうとし信ぴょう性が高く事実に基づいた回答を生成するのではなく人が高い評価を付ける回答を生成するという矛盾が生じている 研究には参加していないカーネギーメロン大学のコンピュータサイエンス教授である 氏によると企業はユーザーにやその回答を引き続き楽しんでもらいたいと考えているがそれが必ずしもわれわれにとって良いことであるとは限らないという 以前からこれらのシステムは答えが分からないと伝えるのが得意ではなかった答えが分からないとでたらめなことを作り出してしまうと氏は語ったそれは試験を受けている学生が答えが分からないと言ったらその問題で点が取れないからとにかく何かを試してみようと言うのに少し似ているこれらのシステムが報酬を与えられたり訓練されたりする方法もいくぶん似ている
上
下
前
次
1-
新
書
関
写
板
覧
索
設
栞
歴
あと 160 レスあります
スレ情報
赤レス抽出
画像レス抽出
歴の未読スレ
AAサムネイル
ぬこの手
ぬこTOP
1.682s*