[過去ログ]
競技プログラミングにハマるプログラマのスレ 119 (1002レス)
競技プログラミングにハマるプログラマのスレ 119 http://medaka.5ch.net/test/read.cgi/prog/1678852419/
上
下
前
次
1-
新
通常表示
512バイト分割
レス栞
このスレッドは過去ログ倉庫に格納されています。
次スレ検索
歴削→次スレ
栞削→次スレ
過去ログメニュー
316: 仕様書無しさん [sage] 2023/03/21(火) 16:00:17.97 GPTでAI界隈が沸騰している。開発者も含めて誰も急激な性能向上の理由を理解出来ていない。 まず、現状を整理する。最近の成果はそのほとんどがトランスフォーマーと呼ばれるエンコーダ・デコーダモデルによる。注目すべきはこれが畳み込みや再帰といった並列計算を防げる仕組みを廃したために計算力の集約が可能になり、飛躍的に大規模なデータセットでの学習が可能になった事だ。 そこで起きたことが、スケーリング則の発見だ(2020年)。 (https://arxiv.org/abs/2001.08361) つまり、計算量、データサイズ、モデルの規模の3つを同時に大きくしてゆくことで、あたかも上限なくモデルの性能が上がってゆくように見える現象だ。 さらに2022年になって、10の23乗から24乗回あたりの計算量を境に急激に性能が向上するという現象が確認された。ある程度予測可能なスケーリング則から非連続的なテイクオフに移行したように見えるため、今後何が起きるのかが見えにくくなっている(https://ai.googleblog.com/2022/11/characterizing-emergent-phenomena-in.html)。 https://i.imgur.com/P5jAEme.png そこで一旦基本に戻る。機械学習モデルが出来るのは学習に使ったデータからの帰納だ(既に見たことがあることしか予測出来ない)。しかしGPT3/4は柔軟な応答や多段論法など一見学習データセットから直接的に導けるとは思えない演繹的なタスクを実行しているように見える。可能な説明は二つある。 1つ目は我々がこれまで演繹と思っていたものの大部分が帰納だったという可能性だ。例えばシマウマと聞いて縞模様のあるウマを想起するとき、ある特徴とあるモノとを組み合わせて別のモノを導き出すこれと同型のパターンはデータセットのどこかに含まれていた。 おそらく10の24乗FLOPSというのは人類が言語情報の形で蓄積した知識の総体から意味ネットワークを抽出するのに必要な計算量なのだろう。丁度その辺りの閾値を超え急激に意味ネットワークがつながり性能が向上した。この場合今後はシグモイド的(急激な上昇の後に停滞期が来る)に推移するだろう。 http://medaka.5ch.net/test/read.cgi/prog/1678852419/316
メモ帳
(0/65535文字)
上
下
前
次
1-
新
書
関
写
板
覧
索
設
栞
歴
あと 686 レスあります
スレ情報
赤レス抽出
画像レス抽出
歴の未読スレ
AAサムネイル
Google検索
Wikipedia
ぬこの手
ぬこTOP
0.006s