ガロア第一論文と乗数イデアル他関連資料スレ18 (673レス)
前次1-
抽出解除 レス栞

194: 現代数学の系譜 雑談 ◆yH25M02vWFhP 2025/06/19(木)07:32:49.46 ID:eEaTWPRB(1) AAS
これいいね
外部リンク:gigazine.net
gigazine
2025年06月18日 23時00分ソフトウェア
最先端の大規模言語モデル(LLM)が難解なコーディング問題を1発で正解する確率はゼロ%、競技プログラマーなどの熟練スキルを持つ人間には依然として歯が立たないことが明らかに

テクノロジー企業のトップから「AIがコードを書くのでもうプログラミングを学ぶ必要はない」や「コーディングを学ぶのは時間の無駄」といった言葉が飛び出すほど、大規模言語モデル(LLM)のコーディング能力は高く、既にMicrosoft製品のコードの30%がAIにより書かれていることが明らかになっています。しかし、LLMは競技プログラミングなどで出題される難解な問題においては、依然として熟練のスキルを持った人間の専門家には歯が立たないことが明らかになりました。

LiveCodeBench Proでは国際情報オリンピックのメダリストから成るチームが、アルゴリズムのカテゴリについてすべての問題に注釈付けを行いました。さらに、LLMが回答に失敗した場合は、メダリストチームが行単位でLLMが出力したコードを分析しています。

LiveCodeBench Proで複数の最先端のLLMをテストしたところ、外部ツールがない場合は最高のLLMであっても中難度の問題では「pass@1」(1回目に生成したコード(最初の解答)で正解する確率)が53%であることが明らかになりました。さらに、高難度の問題の場合はpass@1はゼロ%となっており、熟練したスキルを持つプログラマーの方が、高難度の問題においては優れたパフォーマンスを発揮していることが明らかになっています。

このことから、研究チームは「高いパフォーマンスは優れた推論ではなく、実装精度とツールの拡張によって大きく左右されるようです。LiveCodeBench Proは、人間の専門家との大きな差を浮き彫りにすると同時に、コード中心のLLM推論の将来的な改善を導くためのきめ細かな診断機能を提供します」と指摘しました。
省1
210: 2025/06/25(水)21:27:38.46 ID:IxVX3Njn(2/2) AAS
>>209
>>207がどう面白いのか説明してみて
429: 現代数学の系譜 雑談 ◆yH25M02vWFhP 2025/08/13(水)12:17:59.46 ID:ZWqlQsZq(1) AAS
>>428
これは、おっちゃんか
スレ主です
お元気そうで何よりです。
健康に気を付けて
頑張ってください
581: 死狂幻調教大師S.A.D.@月と六ベンツ 2025/10/30(木)14:51:12.46 ID:KZY/8IBt(10/16) AAS
ものの利用を我慢して制限すれば解決が速い。
591: 現代数学の系譜 雑談 ◆yH25M02vWFhP 2025/11/02(日)08:29:32.46 ID:PmfdHnoP(1/2) AAS
>>590
NHK 新プロジェクトX マイクロソフトに挑んだ男たち〜顔認証システム、世界一へ〜 11月1日
を見ていたが
これは、やっぱり日本流だと思った

外部リンク:www.web.nhk
47分45秒
配信中
新プロジェクトX マイクロソフトに挑んだ男たち〜顔認証システム、世界一へ〜
11月1日(金)午後8:00〜
(再NHK総合・東京11月7日(金)午後11:45〜午前0:35)
省10
631: 死狂幻調教大師S.A.D.@月と六ベンツ 2025/12/01(月)04:24:38.46 ID:0RvT+F5/(4/5) AAS
しかし就職やバイトしてたから試験に落ちたわけでもないし、浪人ではなかった。
前次1-
スレ情報 赤レス抽出 画像レス抽出 歴の未読スレ AAサムネイル

ぬこの手 ぬこTOP 0.706s*