【オセロ,将棋】ボードゲーム Part3【囲碁,War】

【オセロ,将棋】ボードゲーム Part3【囲碁,War】 (636ﾚｽ)
上下前次 1-新

115(1): 535 2020/02/18(火)00:27 ID:kv2P7/8Y(1/3) AAS
とりあえずモンテカルロ1000poで10〜50手打ち進めてその局面で100000po回して結果の黒番の勝利回数、スコアの合計を収集するプログラムを作成。
あんまりいい方法じゃないとはおもうけどこれだというアイディアもないしこれで一回やってみます。

116: 535 2020/02/18(火)21:44 ID:kv2P7/8Y(2/3) AAS
マシンパワー欲しいすな。
3990xでも足りないかも。

アルゴリズム見直せと言われそうだが。

117: 535 2020/02/18(火)22:28 ID:kv2P7/8Y(3/3) AAS
まーでも310さんも言ってるけど計算にマシン取られるとヒマですね。
AWSとか使うのも面白いかもしれないけどいかんせん金が…

118: 535 2020/02/20(木)18:12 ID:YadOsXz6(1) AAS
夜中動かすとファンがうるさくてねれないorz
やっぱaws…
でも金が…

119: 535 2020/02/20(木)20:15 ID:BvOV7XJR(1/2) AAS
でもまあ、コロナでいつポックリいくともわからないならいっそ3990x買っちゃうってのも考えようによってはなくなないな。

120: 310 2020/02/20(木)22:03 ID:KuvbYeZk(1) AAS
たぶん感染経路不明な感染者が１０００人超えたらテレビも飽きてきて
めっきり話題にならなくると思うなｗ

121: 535 2020/02/20(木)22:44 ID:BvOV7XJR(2/2) AAS
70499種類の盤面のモンテカルロ勝率スコアデータが取れました。
これをもとにDNNをトレーニングしてみます。

122: 535 2020/02/21(金)21:02 ID:/4d3LiPl(1/2) AAS
やっぱ素のモンテカルロに勝てない！！！
どうしてなんだ…

123: 535 2020/02/21(金)22:56 ID:/4d3LiPl(2/2) AAS
単に白番有利説が急浮上ｗｗｗ

124: 535 2020/02/22(土)00:47 ID:j5uEDLd9(1/6) AAS
いや、ちがうっぽい。
うーん。

125: 535 2020/02/22(土)17:03 ID:j5uEDLd9(2/6) AAS
キター！素のモンテカルロに勝ち越しました！
黒番　31勝20敗
白番　32勝19敗

126: 535 2020/02/22(土)20:31 ID:j5uEDLd9(3/6) AAS
モンテカルロが間違える局面で間違いを訂正してそれをDNNに学習させる方法ないかなぁ

127(2): 310 2020/02/22(土)21:32 ID:wHsEFeMN(1) AAS
間違える局面が特定できているて、間違えた手を訂正できるんなら、
訂正後から対戦再開させて、その棋譜で局面DB更新して、学習するとか。

特定できていなくても、基本強化学習は、対戦→DB更新＆学習の
繰り返しで、徐々に間違いを訂正していく方法。もうちょっと工夫する
ならε-Greedyなどの手法で既存の棋譜の途中で無理やり別の手に
分岐させていく。その手が悪くても、「悪い手である」という認識を学習
させる事ができる。

線形計画だとモデルが上手くできていないと学習が飽和しちゃうけど、
DNNだったらある程度うまく学習してくれるかも。

128: 535 2020/02/22(土)21:53 ID:j5uEDLd9(4/6) AAS
>>127
特定も訂正も現状できてないですね。

それよりひどいバグを発見して>>115で取ったデータが全て台無しになる可能性が…

129: 535 2020/02/22(土)22:00 ID:j5uEDLd9(5/6) AAS
あかん、なんか全然おかしいorz
ちゃんと見直さないと…

130: 535 2020/02/22(土)22:22 ID:j5uEDLd9(6/6) AAS
データ取りからやり直しますorzorzorz

131(1): 310 2020/02/23(日)00:56 ID:9FygPBnT(1/4) AAS
間違い探しを続けるうちに、何故Zebraの評価値の方がまともに見えるか問題に
突き当りました。で、評価関数を手数毎に６０種類に分割している事で、学習データ
が不足しているとか、スムージングしていないために、２手前の自分の番の盤面との
差分が取れないとかの問題があるのかなぁと思い立ちまして…。

また、４対称採用した事で学習時間も４倍になってしまいまして…。

思い切って、評価関数を１つにまとめてみたらどうだろうと思い立って、専用の学習
プロジェクトを作ってやってみました。通常数百回学習しないとまともな学習ができ
ないのですが、２０回学習したところで、意外とフィットしてしまいました。学習時間も
少し減ってる気がする。

一旦評価関数の癖を変えたほうが強化学習も進むかなと思い、とりあえず本番採用
省6

132: 310 2020/02/23(日)01:08 ID:9FygPBnT(2/4) AAS
>>127に捕捉しとくと、

自分はGreedyな手法の精度をあげるために、浅い探索（９手）と組み合わせて、
評価値が少しだけ悪い手とか、Book登録ないのに評価値が良いとか、いくつかの
基準の訂正ロジックを作って、明らかに悪い手を排除したGreedy法をとって、
既存の棋譜に対して順次分岐を生成していく事で、Bookを埋めて行っています。

分岐は１３手読みで作成していますが、この分岐も間違いがそれなりにあるため、
間違いを積み上げているのではないかという懸念もあります（汗

オセロの場合、黒白両者とも最善の場合、引き分けに収束する可能性が濃厚なため
初手から最善引き分けとなるツリーについては、先頭側からこのGreedy法で分岐を
生成し、また（後ろから）確定読み切りを優先して実行する事で、引き分け手順だけ
省4

133: 310 2020/02/23(日)03:01 ID:9FygPBnT(3/4) AAS
げげ。>>131の奴、本番に入れて学習させたらうまく動かん…。

原因箇所は特定できたけど、そもそもBook分だけで学習していて、後半の棋譜から
教師データ作ってなかったので、件数が大幅に違う。後ろ１５手分が抜けている。

が、これが入ると学習の途中で無限ループに入ってしまう。
何かのオーバフローなんだと思うけど、今は原因不明orz

134: 310 2020/02/23(日)10:00 ID:9FygPBnT(4/4) AAS
たぶんなおった。

学習の進行具合インジケータの＊印の数を作るところでオーバーフローして
延々と＊を表示し続けてるだけだったｗ

こういうところで適当にint使っているのがいかん。
と、怪しそうなところをsize_tに直したら、整合性が取れなくなってワーニングの嵐ｗ
適当にsize_tにすればよいというものでもなかったｗ

上下前次 1-新書関写板覧索設栞歴

あと 502 ﾚｽあります
ｽﾚ情報赤ﾚｽ抽出画像ﾚｽ抽出歴の未読ｽﾚ AAｻﾑﾈｲﾙ

ぬこの手ぬこTOP 0.021s