[過去ログ] 【統計分析】機械学習・データマイニング31 (1002レス)
1-

このスレッドは過去ログ倉庫に格納されています。
次スレ検索 歴削→次スレ 栞削→次スレ 過去ログメニュー
544: (ワッチョイ ee10-ojei [153.131.102.129]) 2022/05/11(水)13:57 ID:SfomTu1y0(1/3) AAS
ミニバッチでもバッチのデータと全データで勾配方向が違うから確率的になるけどな
バッチサイズが小さいとそのズレは比較的大きくなる
545: (ワッチョイ 7d5f-oYRD [106.73.226.99]) 2022/05/11(水)15:02 ID:F52sGOdk0(1) AAS
でもその差を理論的だったり実験的に検証してる論文はないんじゃない?
546: (アウアウウー Sac5-e+q+ [106.154.72.157]) 2022/05/11(水)15:06 ID:xW75jOAua(1) AAS
さすがにあるだろ。80年代にありそう
547: (ワッチョイ ee10-ojei [153.131.102.129]) 2022/05/11(水)16:21 ID:SfomTu1y0(2/3) AAS
学習に使う全データは実際に発生するデータの部分集合である事は変わらない
全データで勾配を計算したとしても母集団の情報を使っている事にはならないから確率的勾配降下とも解釈できる

あくまでも学習データに限定して最急降下というだけ
未知データに対する汎化能力で見ると最急降下になっているかは分からない
548
(1): (ワッチョイ 5102-U1YL [118.154.96.7]) 2022/05/11(水)20:06 ID:n/T4USjf0(3/4) AAS
それはなんかズレてるような
学習データでしか学習しない(勾配を求めて降下させることもない)んだから母集団とか持ち出さなくても

確率的と最急降下の本質的な違いは、確率的に学習することによりローカルミニマムを抜け出す
チャンスがあるかどうかなのでは
そういう意味ではミニバッチ法も確率的だというのはあってると思う
549: (ワッチョイ 9d6e-xesJ [138.64.67.32]) 2022/05/11(水)20:15 ID:168GVk5R0(2/2) AAS
サイコロふってサンプル選んでミニバッチ作ることが確率的なの?
550: (ワッチョイ 5102-U1YL [118.154.96.7]) 2022/05/11(水)20:32 ID:n/T4USjf0(4/4) AAS
サンプルの選び方によって勾配が変わるので学習の方向はあっち行ったりこっち行ったりする
でもどちらかと言うと正しい方向に進む確率の方がちょっとだけ高い
そういう意味で確率的、なんだと思う

これはアニーリング問題と同じで、分子を最初は大きくランダムに動かして
(でもちょっとだけ正しい方向に進みやすくして)少しずつ動きを小さくしていくと
最も安定したところに収束する
分子の動き=温度で、温度を十分にゆっくり下げると最適解に到達することが証明されてる

だからDLでも学習率(温度と等価)の下げ方が重要なんだが最近は自動になって便利だね
551: (ワッチョイ ee10-ojei [153.131.102.129]) 2022/05/11(水)20:57 ID:SfomTu1y0(3/3) AAS
>>548
テスト用にデータを分けておいて汎化能力を評価する
過学習になっていないかを確認するため
それでもその後運用すると未学習データに対する精度が要求より低かったりする
552: (ワッチョイ 8510-hJAo [114.163.141.1]) 2022/05/11(水)23:37 ID:cJjkDDOX0(1) AAS
過学習
意味: うまくいかないときの言い訳
553: (アウアウウー Sac5-e+q+ [106.154.69.155]) 2022/05/11(水)23:47 ID:xXaj6qvMa(1) AAS
過学習できるってことはうまくいってるってことだよ
554: (テテンテンテン MM82-xesJ [193.119.144.94]) 2022/05/12(木)09:15 ID:24mxIbhrM(1/2) AAS
初期の学習率てどうやって決めれば良いの? それとオプティマイザも
555
(1): (テテンテンテン MM82-xesJ [193.119.144.94]) 2022/05/12(木)09:16 ID:24mxIbhrM(2/2) AAS
adam選んどきゃ正解なの?
556: (アウアウウー Sac5-e+q+ [106.154.69.155]) 2022/05/12(木)11:51 ID:ssfk6Zuqa(1/2) AAS
ユニット数とかすべてひっくるめて、無限にある組み合わせの中から適当に選んで試しまくってよさげなのを決めるしかないよ
autokerasみたいなの使って半自動で探すのもいいけど、制限も多いから自力(コーディング)で探すのが楽
557: (スップ Sd02-hJAo [1.75.155.91]) 2022/05/12(木)15:04 ID:mMTw6/Aad(1/2) AAS
過学習なんて言葉いい加減禁句にしてほしい。
エラソぶったおっさんが学会でわかった口して過学習、過学習‥‥‥ブツブツ。、

(苦笑)
558: (スップ Sd02-hJAo [1.75.155.91]) 2022/05/12(木)15:07 ID:mMTw6/Aad(2/2) AAS
ただの造語に騙されないように‥‥‥
559: (ササクッテロル Sp91-YKh1 [126.234.43.89]) 2022/05/12(木)15:30 ID:TPnOtntRp(1) AAS
オーバーフィッティングならいいのか?
560: (JP 0Hca-Ix6I [103.163.220.94]) 2022/05/12(木)17:20 ID:l5soNYRaH(1) AAS
たとえばオセロや囲碁などのボードゲームではビットボードが使われてると思うんですが、
学習をさせるときは配列にビットを展開しないといけないんでしょうか?
それともインプットをビットボードの数値にしてもうまく学習できますか?
展開するとしたら結構な計算量とメモリ消費量になると思うのですが、現実どう処理されてるんでしょうか?
561: (アウアウウー Sac5-e+q+ [106.154.69.155]) 2022/05/12(木)17:40 ID:ssfk6Zuqa(2/2) AAS
bit単位で扱うことはないな。画像データのほうがはるかにメモリ食う
具体的にはゲーム処理は1マス1enum(内部的には4byteかな)でやるし、学習データは1マス1floatの割り当てでやる
オセロなら8x8マスだからfloat[64] 用意して自駒あるとこ1、敵-1、何もなしzero、入力マスク用にbool[64]用意して駒おけるとこだけtrueにして
lstmも何も使わない単純なPPOに突っ込むだけで一日で勝てないとこまでいくよ
562: (ワッチョイ 0202-zDU0 [59.138.123.33]) 2022/05/12(木)18:07 ID:XThBUtns0(1/2) AAS
配列のほとんどの部分が0なので
疎な配列、疎行列あたりのライブラリを使って
メモリを節約する
563: (テテンテンテン MM82-xesJ [193.119.144.25]) 2022/05/12(木)18:20 ID:y2m3n7NiM(1) AAS
適当なオープンソースのやつみたら分かるんじゃね?
564: (ワッチョイ ee10-uM1l [153.243.53.4]) 2022/05/12(木)18:43 ID:MKi5Gk5o0(1) AAS
>>555
3層パーセプトロンのような、小さいニューラルネットならAdam
VGGやResNetのような、深いネットワークなら、SGDが良いとされる
学習率はとりまデフォルトで様子見
565
(1): (エムゾネ FFa2-ZVzp [49.106.187.17]) 2022/05/12(木)19:08 ID:eWCwulp9F(1) AAS
過学習の何が気に入らないのか
過学習は過学習だろ
566: (アークセー Sx91-PvPk [126.196.37.22]) 2022/05/12(木)19:13 ID:SeeVGpfXx(1/2) AAS
>>565
過学習って学習しているわけじゃなく、学習データを丸暗記してるのと同じだよね
それを学習といいたくないんじゃないかな
567
(3): (ワッチョイ ee10-cfd4 [153.243.43.6]) 2022/05/12(木)19:17 ID:QHBqVOhI0(1/4) AAS
過学習と学習不足(未学習)は機械学習の基本的な考え方だねー。varianceとbiasと考えてもいいよー
ところがディープラーニングの世界では、過学習の先に突然精度が上がる現象が確認されてるよー
不思議だねー
568
(1): (テテンテンテン MM82-xesJ [193.119.159.12]) 2022/05/12(木)19:26 ID:awPT4EK2M(1) AAS
>>567
この現象、体験したことないんだけどMNISTあたりでも観測できるの?
569: (アークセー Sx91-PvPk [126.196.37.22]) 2022/05/12(木)19:30 ID:SeeVGpfXx(2/2) AAS
>>567
適当にぐぐったけどこれのこと?

過学習後も精度向上!?【論文】Deep Double Descent: Where Bigger Models and More Data Hurt の解説
外部リンク[html]:www.acceluniverse.com

ニワカに信じがたいので、ちょっと読んでみる
570: (アウアウウー Sac5-ZVzp [106.146.112.241]) 2022/05/12(木)19:34 ID:V9a83oNra(1) AAS
丸暗記だって学習は学習
人間でも暗記は必要最低限だけにして知識を効率活用できる人もいれば丸暗記したことしか理解できずちょっと応用問題出されただけで理解不能に陥る人もいる
571: (ワッチョイ ee10-cfd4 [153.243.43.6]) 2022/05/12(木)19:35 ID:QHBqVOhI0(2/4) AAS
Double Descentだねー
大規模言語モデルだと前提になってるよー
572: (ワッチョイ ee10-cfd4 [153.243.43.6]) 2022/05/12(木)19:38 ID:QHBqVOhI0(3/4) AAS
とはいえ過学習を是とすると、それはただの全文検索なので
Double Descent, Overparameterizationは既知の概念ではない何かなんだろうねー
573
(1): (ワッチョイ ee10-cfd4 [153.243.43.6]) 2022/05/12(木)19:41 ID:QHBqVOhI0(4/4) AAS
>>568
トイプロブレムで実証したことはないけど、実務で大きめのモデルを扱っている人は、みんなそれっぽい現象を観測した経験があると思うよー
とはいえ、概念を先に知らないと偶然としか思わないんだけどねー
1-
あと 429 レスあります
スレ情報 赤レス抽出 画像レス抽出 歴の未読スレ

ぬこの手 ぬこTOP 0.018s