iOS 18.xを語るスレ Part.2 (431レス)
iOS 18.xを語るスレ Part.2 http://fate.5ch.net/test/read.cgi/ios/1722517435/
上
下
前次
1-
新
通常表示
512バイト分割
レス栞
抽出解除
レス栞
リロード規制
です。10分ほどで解除するので、
他のブラウザ
へ避難してください。
96: iOS (ワッチョイ c588-NiVF [60.61.24.199]) [sage] 2024/09/16(月) 10:55:18.31 ID:HYP3Lv+p0 こんにゃくかね http://fate.5ch.net/test/read.cgi/ios/1722517435/96
134: iOS (ワッチョイ 979a-C+z/ [2400:4051:a881:fa00:*]) [] 2024/10/16(水) 17:34:00.31 ID:nvtCU5Eq0 ps://www.itmedia.co.jp/news/articles/2410/13/news070.html 「現在のLLMに真の推論は困難」──Appleの研究者らが論文発表 2024年10月13日 08時00分 公開 [ITmedia] 米AppleのAI研究者らは10月7日(現地時間)、「GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models」(LLMにおける数学的推論の限界を理解する)という論文を発表した。 この論文は、LLM(大規模言語モデル)が、本当に人間のように論理的に考えて問題を解けるのか、という疑問を検証している。結論としては、LLMは今のところ、表面的なパターンを真似て答えを出しているだけで、真の推論能力は持っていないと主張している。 研究者らは、これらの問題点を検証するために、「GSM-Symbolic」という新しいテスト方法を開発した。これは、LLMの数学的推論能力を評価するためのベンチマークデータセット「GSM8K」を改良し、問題の表現や数字を柔軟に変えられるようにしたもの。また、「GSM-NoOp」という、無関係な情報を含んだ問題集も作成し、LLMの推論能力を評価した。 実験の結果、OpenAIのGPT-4oやo1-previewなどのLLMは、他のLLMと比べて高い性能を示したが、それでもGSM-NoOpのような引っ掛け問題には弱く、真の推論能力を獲得するにはまだ課題があるとしている。 論文では、実験で明らかになった「弱点」を挙げている。 数字や言い回しを変えると混乱する 例えば、ある問題をLLMが解けたとしても、その問題の数字を変えたり、少し言い回しを変えただけで、正解率が大きく下がった。 これは、LLMが問題の本質を理解して解いているのではなく、訓練データで見たパターンを単純に当てはめているだけである可能性を示唆している。 問題が複雑になると混乱する 簡単な問題なら解けても、問題文が長くなって複雑になると、LLMの正解率は下がり、さらに答えのばらつきも大きくなる。 例として、公衆電話からの通話料金に関する問題をベースに、問題の難易度を4段階に調整した結果の正解率を、米GoogleのGemma 2や米OpenAIのGPT-o1 mini、米MicrosoftのPhi-3.5で調べたところ、いずれのLLMも難易度が上がると正解率が下がった。 http://fate.5ch.net/test/read.cgi/ios/1722517435/134
241: iOS (ワッチョイ 4354-Y55z [126.66.126.187]) [] 2025/01/11(土) 22:28:00.31 ID:iAAmAk5M0 ( ̄ー ̄)ニヤリ 一生やってろタコ http://fate.5ch.net/test/read.cgi/ios/1722517435/241
421: iOS (ワッチョイ b9ee-FoMz [124.110.108.45]) [] 2025/07/20(日) 21:25:40.31 ID:xQ2U61C/0 XperiaがiOSを採用する日が 刻一刻迫っているとゆうのに 貴様らときたら ••• http://fate.5ch.net/test/read.cgi/ios/1722517435/421
メモ帳
(0/65535文字)
上
下
前次
1-
新
書
関
写
板
覧
索
設
栞
歴
スレ情報
赤レス抽出
画像レス抽出
歴の未読スレ
AAサムネイル
Google検索
Wikipedia
ぬこの手
ぬこTOP
0.025s