[過去ログ]
【統計分析】機械学習・データマイニング31 (1002レス)
【統計分析】機械学習・データマイニング31 http://mevius.5ch.net/test/read.cgi/tech/1632587566/
上
下
前
次
1-
新
通常表示
512バイト分割
レス栞
このスレッドは過去ログ倉庫に格納されています。
次スレ検索
歴削→次スレ
栞削→次スレ
過去ログメニュー
544: デフォルトの名無しさん (ワッチョイ ee10-ojei [153.131.102.129]) [sage] 2022/05/11(水) 13:57:20.69 ID:SfomTu1y0 ミニバッチでもバッチのデータと全データで勾配方向が違うから確率的になるけどな バッチサイズが小さいとそのズレは比較的大きくなる http://mevius.5ch.net/test/read.cgi/tech/1632587566/544
545: デフォルトの名無しさん (ワッチョイ 7d5f-oYRD [106.73.226.99]) [sage] 2022/05/11(水) 15:02:21.52 ID:F52sGOdk0 でもその差を理論的だったり実験的に検証してる論文はないんじゃない? http://mevius.5ch.net/test/read.cgi/tech/1632587566/545
546: デフォルトの名無しさん (アウアウウー Sac5-e+q+ [106.154.72.157]) [sage] 2022/05/11(水) 15:06:03.86 ID:xW75jOAua さすがにあるだろ。80年代にありそう http://mevius.5ch.net/test/read.cgi/tech/1632587566/546
547: デフォルトの名無しさん (ワッチョイ ee10-ojei [153.131.102.129]) [sage] 2022/05/11(水) 16:21:53.90 ID:SfomTu1y0 学習に使う全データは実際に発生するデータの部分集合である事は変わらない 全データで勾配を計算したとしても母集団の情報を使っている事にはならないから確率的勾配降下とも解釈できる あくまでも学習データに限定して最急降下というだけ 未知データに対する汎化能力で見ると最急降下になっているかは分からない http://mevius.5ch.net/test/read.cgi/tech/1632587566/547
548: デフォルトの名無しさん (ワッチョイ 5102-U1YL [118.154.96.7]) [sage] 2022/05/11(水) 20:06:44.40 ID:n/T4USjf0 それはなんかズレてるような 学習データでしか学習しない(勾配を求めて降下させることもない)んだから母集団とか持ち出さなくても 確率的と最急降下の本質的な違いは、確率的に学習することによりローカルミニマムを抜け出す チャンスがあるかどうかなのでは そういう意味ではミニバッチ法も確率的だというのはあってると思う http://mevius.5ch.net/test/read.cgi/tech/1632587566/548
549: デフォルトの名無しさん (ワッチョイ 9d6e-xesJ [138.64.67.32]) [sage] 2022/05/11(水) 20:15:05.10 ID:168GVk5R0 サイコロふってサンプル選んでミニバッチ作ることが確率的なの? http://mevius.5ch.net/test/read.cgi/tech/1632587566/549
550: デフォルトの名無しさん (ワッチョイ 5102-U1YL [118.154.96.7]) [sage] 2022/05/11(水) 20:32:09.62 ID:n/T4USjf0 サンプルの選び方によって勾配が変わるので学習の方向はあっち行ったりこっち行ったりする でもどちらかと言うと正しい方向に進む確率の方がちょっとだけ高い そういう意味で確率的、なんだと思う これはアニーリング問題と同じで、分子を最初は大きくランダムに動かして (でもちょっとだけ正しい方向に進みやすくして)少しずつ動きを小さくしていくと 最も安定したところに収束する 分子の動き=温度で、温度を十分にゆっくり下げ
ると最適解に到達することが証明されてる だからDLでも学習率(温度と等価)の下げ方が重要なんだが最近は自動になって便利だね http://mevius.5ch.net/test/read.cgi/tech/1632587566/550
551: デフォルトの名無しさん (ワッチョイ ee10-ojei [153.131.102.129]) [sage] 2022/05/11(水) 20:57:45.21 ID:SfomTu1y0 >>548 テスト用にデータを分けておいて汎化能力を評価する 過学習になっていないかを確認するため それでもその後運用すると未学習データに対する精度が要求より低かったりする http://mevius.5ch.net/test/read.cgi/tech/1632587566/551
552: デフォルトの名無しさん (ワッチョイ 8510-hJAo [114.163.141.1]) [sage] 2022/05/11(水) 23:37:55.47 ID:cJjkDDOX0 過学習 意味: うまくいかないときの言い訳 http://mevius.5ch.net/test/read.cgi/tech/1632587566/552
553: デフォルトの名無しさん (アウアウウー Sac5-e+q+ [106.154.69.155]) [sage] 2022/05/11(水) 23:47:40.71 ID:xXaj6qvMa 過学習できるってことはうまくいってるってことだよ http://mevius.5ch.net/test/read.cgi/tech/1632587566/553
554: デフォルトの名無しさん (テテンテンテン MM82-xesJ [193.119.144.94]) [sage] 2022/05/12(木) 09:15:39.58 ID:24mxIbhrM 初期の学習率てどうやって決めれば良いの? それとオプティマイザも http://mevius.5ch.net/test/read.cgi/tech/1632587566/554
555: デフォルトの名無しさん (テテンテンテン MM82-xesJ [193.119.144.94]) [sage] 2022/05/12(木) 09:16:43.48 ID:24mxIbhrM adam選んどきゃ正解なの? http://mevius.5ch.net/test/read.cgi/tech/1632587566/555
556: デフォルトの名無しさん (アウアウウー Sac5-e+q+ [106.154.69.155]) [sage] 2022/05/12(木) 11:51:42.19 ID:ssfk6Zuqa ユニット数とかすべてひっくるめて、無限にある組み合わせの中から適当に選んで試しまくってよさげなのを決めるしかないよ autokerasみたいなの使って半自動で探すのもいいけど、制限も多いから自力(コーディング)で探すのが楽 http://mevius.5ch.net/test/read.cgi/tech/1632587566/556
557: デフォルトの名無しさん (スップ Sd02-hJAo [1.75.155.91]) [sage] 2022/05/12(木) 15:04:07.76 ID:mMTw6/Aad 過学習なんて言葉いい加減禁句にしてほしい。 エラソぶったおっさんが学会でわかった口して過学習、過学習‥‥‥ブツブツ。、 (苦笑) http://mevius.5ch.net/test/read.cgi/tech/1632587566/557
558: デフォルトの名無しさん (スップ Sd02-hJAo [1.75.155.91]) [sage] 2022/05/12(木) 15:07:39.54 ID:mMTw6/Aad ただの造語に騙されないように‥‥‥ http://mevius.5ch.net/test/read.cgi/tech/1632587566/558
559: デフォルトの名無しさん (ササクッテロル Sp91-YKh1 [126.234.43.89]) [] 2022/05/12(木) 15:30:13.49 ID:TPnOtntRp オーバーフィッティングならいいのか? http://mevius.5ch.net/test/read.cgi/tech/1632587566/559
560: デフォルトの名無しさん (JP 0Hca-Ix6I [103.163.220.94]) [sage] 2022/05/12(木) 17:20:58.10 ID:l5soNYRaH たとえばオセロや囲碁などのボードゲームではビットボードが使われてると思うんですが、 学習をさせるときは配列にビットを展開しないといけないんでしょうか? それともインプットをビットボードの数値にしてもうまく学習できますか? 展開するとしたら結構な計算量とメモリ消費量になると思うのですが、現実どう処理されてるんでしょうか? http://mevius.5ch.net/test/read.cgi/tech/1632587566/560
561: デフォルトの名無しさん (アウアウウー Sac5-e+q+ [106.154.69.155]) [sage] 2022/05/12(木) 17:40:20.64 ID:ssfk6Zuqa bit単位で扱うことはないな。画像データのほうがはるかにメモリ食う 具体的にはゲーム処理は1マス1enum(内部的には4byteかな)でやるし、学習データは1マス1floatの割り当てでやる オセロなら8x8マスだからfloat[64] 用意して自駒あるとこ1、敵-1、何もなしzero、入力マスク用にbool[64]用意して駒おけるとこだけtrueにして lstmも何も使わない単純なPPOに突っ込むだけで一日で勝てないとこまでいくよ http://mevius.5ch.net/test
/read.cgi/tech/1632587566/561
562: デフォルトの名無しさん (ワッチョイ 0202-zDU0 [59.138.123.33]) [sage] 2022/05/12(木) 18:07:08.93 ID:XThBUtns0 配列のほとんどの部分が0なので 疎な配列、疎行列あたりのライブラリを使って メモリを節約する http://mevius.5ch.net/test/read.cgi/tech/1632587566/562
563: デフォルトの名無しさん (テテンテンテン MM82-xesJ [193.119.144.25]) [sage] 2022/05/12(木) 18:20:42.07 ID:y2m3n7NiM 適当なオープンソースのやつみたら分かるんじゃね? http://mevius.5ch.net/test/read.cgi/tech/1632587566/563
564: デフォルトの名無しさん (ワッチョイ ee10-uM1l [153.243.53.4]) [] 2022/05/12(木) 18:43:11.76 ID:MKi5Gk5o0 >>555 3層パーセプトロンのような、小さいニューラルネットならAdam VGGやResNetのような、深いネットワークなら、SGDが良いとされる 学習率はとりまデフォルトで様子見 http://mevius.5ch.net/test/read.cgi/tech/1632587566/564
565: デフォルトの名無しさん (エムゾネ FFa2-ZVzp [49.106.187.17]) [sage] 2022/05/12(木) 19:08:36.43 ID:eWCwulp9F 過学習の何が気に入らないのか 過学習は過学習だろ http://mevius.5ch.net/test/read.cgi/tech/1632587566/565
566: デフォルトの名無しさん (アークセー Sx91-PvPk [126.196.37.22]) [sage] 2022/05/12(木) 19:13:03.75 ID:SeeVGpfXx >>565 過学習って学習しているわけじゃなく、学習データを丸暗記してるのと同じだよね それを学習といいたくないんじゃないかな http://mevius.5ch.net/test/read.cgi/tech/1632587566/566
567: デフォルトの名無しさん (ワッチョイ ee10-cfd4 [153.243.43.6]) [] 2022/05/12(木) 19:17:06.59 ID:QHBqVOhI0 過学習と学習不足(未学習)は機械学習の基本的な考え方だねー。varianceとbiasと考えてもいいよー ところがディープラーニングの世界では、過学習の先に突然精度が上がる現象が確認されてるよー 不思議だねー http://mevius.5ch.net/test/read.cgi/tech/1632587566/567
568: デフォルトの名無しさん (テテンテンテン MM82-xesJ [193.119.159.12]) [sage] 2022/05/12(木) 19:26:27.74 ID:awPT4EK2M >>567 この現象、体験したことないんだけどMNISTあたりでも観測できるの? http://mevius.5ch.net/test/read.cgi/tech/1632587566/568
569: デフォルトの名無しさん (アークセー Sx91-PvPk [126.196.37.22]) [sage] 2022/05/12(木) 19:30:00.86 ID:SeeVGpfXx >>567 適当にぐぐったけどこれのこと? 過学習後も精度向上!?【論文】Deep Double Descent: Where Bigger Models and More Data Hurt の解説 https://www.acceluniverse.com/blog/developers/2020/01/deep-double-descent-where-bigger-models-and-more-data-hurt.html ニワカに信じがたいので、ちょっと読んでみる http://mevius.5ch.net/test/read.cgi/tech/1632587566/569
570: デフォルトの名無しさん (アウアウウー Sac5-ZVzp [106.146.112.241]) [sage] 2022/05/12(木) 19:34:46.68 ID:V9a83oNra 丸暗記だって学習は学習 人間でも暗記は必要最低限だけにして知識を効率活用できる人もいれば丸暗記したことしか理解できずちょっと応用問題出されただけで理解不能に陥る人もいる http://mevius.5ch.net/test/read.cgi/tech/1632587566/570
571: デフォルトの名無しさん (ワッチョイ ee10-cfd4 [153.243.43.6]) [] 2022/05/12(木) 19:35:33.93 ID:QHBqVOhI0 Double Descentだねー 大規模言語モデルだと前提になってるよー http://mevius.5ch.net/test/read.cgi/tech/1632587566/571
572: デフォルトの名無しさん (ワッチョイ ee10-cfd4 [153.243.43.6]) [] 2022/05/12(木) 19:38:29.11 ID:QHBqVOhI0 とはいえ過学習を是とすると、それはただの全文検索なので Double Descent, Overparameterizationは既知の概念ではない何かなんだろうねー http://mevius.5ch.net/test/read.cgi/tech/1632587566/572
573: デフォルトの名無しさん (ワッチョイ ee10-cfd4 [153.243.43.6]) [] 2022/05/12(木) 19:41:34.38 ID:QHBqVOhI0 >>568 トイプロブレムで実証したことはないけど、実務で大きめのモデルを扱っている人は、みんなそれっぽい現象を観測した経験があると思うよー とはいえ、概念を先に知らないと偶然としか思わないんだけどねー http://mevius.5ch.net/test/read.cgi/tech/1632587566/573
メモ帳
(0/65535文字)
上
下
前
次
1-
新
書
関
写
板
覧
索
設
栞
歴
あと 429 レスあります
スレ情報
赤レス抽出
画像レス抽出
歴の未読スレ
Google検索
Wikipedia
ぬこの手
ぬこTOP
0.022s