ガロア第一論文と乗数イデアル他関連資料スレ18

ガロア第一論文と乗数イデアル他関連資料スレ18 (199ﾚｽ)
上下前次1-新
通常表示 512ﾊﾞｲﾄ分割ﾚｽ栞
抽出解除必死ﾁｪｯｶｰ(本家) (べ) 自ID ﾚｽ栞あぼーん

194: 現代数学の系譜 雑談 ◆yH25M02vWFhP  [] 2025/06/19(木) 07:32:49.46 ID:eEaTWPRB

これいいね
https://gigazine.net/news/20250618-livecodebench-pro-llm-benchmark/
gigazine
2025年06月18日 23時00分ソフトウェア
最先端の大規模言語モデル(LLM)が難解なコーディング問題を1発で正解する確率はゼロ％、競技プログラマーなどの熟練スキルを持つ人間には依然として歯が立たないことが明らかに

テクノロジー企業のトップから「AIがコードを書くのでもうプログラミングを学ぶ必要はない」や「コーディングを学ぶのは時間の無駄」といった言葉が飛び出すほど、大規模言語モデル(LLM)のコーディング能力は高く、既にMicrosoft製品のコードの30％がAIにより書かれていることが明らかになっています。しかし、LLMは競技プログラミングなどで出題される難解な問題においては、依然として熟練のスキルを持った人間の専門家には歯が立たないことが明らかになりました。

LiveCodeBench Proでは国際情報オリンピックのメダリストから成るチームが、アルゴリズムのカテゴリについてすべての問題に注釈付けを行いました。さらに、LLMが回答に失敗した場合は、メダリストチームが行単位でLLMが出力したコードを分析しています。

LiveCodeBench Proで複数の最先端のLLMをテストしたところ、外部ツールがない場合は最高のLLMであっても中難度の問題では「pass@1」(1回目に生成したコード(最初の解答)で正解する確率)が53％であることが明らかになりました。さらに、高難度の問題の場合はpass@1はゼロ％となっており、熟練したスキルを持つプログラマーの方が、高難度の問題においては優れたパフォーマンスを発揮していることが明らかになっています。

このことから、研究チームは「高いパフォーマンスは優れた推論ではなく、実装精度とツールの拡張によって大きく左右されるようです。LiveCodeBench Proは、人間の専門家との大きな差を浮き彫りにすると同時に、コード中心のLLM推論の将来的な改善を導くためのきめ細かな診断機能を提供します」と指摘しました。

AIエンジニアのロハン・ポール氏は「LLMのコーディングスキルに関する非常に悪いニュースです。最先端のLLMは専門家が依然として優れている領域である、現実のプログラミングコンテストの難しい問題において正答率がゼロ％でした」と述べ、LLMがまだまだ高難度のプログラミングにおいて熟練スキルを持った人間にはかなわないと指摘しています。

http://rio2016.5ch.net/test/read.cgi/math/1748354585/194

上下前次1-新書関写板覧索設栞歴

ｽﾚ情報赤ﾚｽ抽出画像ﾚｽ抽出歴の未読ｽﾚ AAｻﾑﾈｲﾙ

ぬこの手ぬこTOP 1.093s*