【ChatGPT】AIチャット総合 19【Copilot・Gemini】

【ChatGPT】AIチャット総合 19【Copilot・Gemini】 (187ﾚｽ)
上下前次1-新
抽出解除ﾚｽ栞

167(1): (ﾜｯﾁｮｲ 8b94-C+z/) 2024/10/17(木)12:03 ID:dcHpcOWv0(1/3) AAS
外部ﾘﾝｸ[html]:www.itmedia.co.jp
「現在のLLMに真の推論は困難」──Appleの研究者らが論文発表
2024年10月13日 08時00分公開
[ITmedia]

　米AppleのAI研究者らは10月7日（現地時間）、「GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models」（LLMにおける数学的推論の限界を理解する）という論文を発表した。

　この論文は、LLM（大規模言語モデル）が、本当に人間のように論理的に考えて問題を解けるのか、という疑問を検証している。結論としては、LLMは今のところ、表面的なパターンを真似て答えを出しているだけで、真の推論能力は持っていないと主張している。

　研究者らは、これらの問題点を検証するために、「GSM-Symbolic」という新しいテスト方法を開発した。これは、LLMの数学的推論能力を評価するためのベンチマークデータセット「GSM8K」を改良し、問題の表現や数字を柔軟に変えられるようにしたもの。また、「GSM-NoOp」という、無関係な情報を含んだ問題集も作成し、LLMの推論能力を評価した。

　実験の結果、OpenAIのGPT-4oやo1-previewなどのLLMは、他のLLMと比べて高い性能を示したが、それでもGSM-NoOpのような引っ掛け問題には弱く、真の推論能力を獲得するにはまだ課題があるとしている。
省7

171: (ｽｯﾌﾟﾌﾟ Sdbf-D+DL) 2024/10/17(木)21:11 ID:iUiUNsUAd(1) AAS
>>167
「少し言い回しを変えただけで、正解率が大きく下がった。」
役立つ万能チャットボットを作る上でも重要な部分

上下前次1-新書関写板覧索設栞歴

ｽﾚ情報赤ﾚｽ抽出画像ﾚｽ抽出歴の未読ｽﾚ AAｻﾑﾈｲﾙ

ぬこの手ぬこTOP 0.752s*