[過去ログ]
【オセロ,将棋】ボードゲーム【囲碁,War】 (1002レス)
【オセロ,将棋】ボードゲーム【囲碁,War】 http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/
上
下
前次
1-
新
通常表示
512バイト分割
レス栞
抽出解除
必死チェッカー(本家)
(べ)
自ID
レス栞
あぼーん
このスレッドは過去ログ倉庫に格納されています。
次スレ検索
歴削→次スレ
栞削→次スレ
過去ログメニュー
836: 310 [sage] 2017/05/27(土) 20:17:57.81 ID:TGXtrM6M 強化学習に大きく方向転換。 最初、ポリシーネットを模して学習しようとしたけど、出力がソフトマックスの時 負け側の教師データをどうするのか不安があったので、まずは普通にQ学習で 勝率を学ぶ事にしました。 ざっと作ったところでデバッグに時間がかかりまして、ようやく多分ちゃんと学習して いるんじゃないかと思うところまで来ました。が、初期の学習をしないでランダム初期化 のまま開始してしまいましたので、学習はしているみたいだけど、実用レベルの学習 をするまで、どれくらいかかるのか、想像もつきません(汗 100回対戦して、1エポック学習するのに、大体8〜10分くらい。控えめに見て 1000万対戦としても、10万分。つまり2か月強必要です。アルファ碁は初期値を 学習した上で追加の強化学習が確か数千万対戦だから、年単位でも足りないかも(笑) 手を完全に固定(ランダム要素排除)した状態で学習により勝つ方向に遷移する事 は確認しましたが、最初の方をランダムにしたりε-greedyしたりして局面が偏らない ようにしてから、1万対戦しても勝率が良くなる気配が無いので、まだすごく不安です。 http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/836
メモ帳
(0/65535文字)
上
下
前次
1-
新
書
関
写
板
覧
索
設
栞
歴
スレ情報
赤レス抽出
画像レス抽出
歴の未読スレ
AAサムネイル
Google検索
Wikipedia
ぬこの手
ぬこTOP
0.028s