【オセロ,将棋】ボードゲーム Part3【囲碁,War】

【オセロ,将棋】ボードゲーム Part3【囲碁,War】 (636ﾚｽ)
上下前次 1-新

104: 535 2020/02/11(火)19:46 ID:5mcWafyZ(2/3) AAS
テーブル定義は段々固まってきたけどどういう順序で探索ツリーを展開するか一番肝心なところが決まってない。

105: 535 2020/02/11(火)21:32 ID:5mcWafyZ(3/3) AAS
探索が進むほど有望な局面を選択できるようにしたいがやはりMCTS系の探索だろうか？

106: 310 2020/02/11(火)21:43 ID:gp4irkBy(1) AAS
F5f6の筋復活（汗

その代わり、F5d6E6f4とF5f6E6d6（対称形）に差が出てきて、評価値がずれた。
F5f6E6d6の棋譜をすべてF5f6E6f4に変換して、Bookにはf4系とd6系の２種類登録
しているので、ここの間では差が生じないが、例えばF5f4E3〜の筋からたまたま
F5d6E6d6とかに合流してくると、その棋譜については対称変換しないので、差が
生じてしまうという事になるかなと気が付いて、対称変換で差が生じている棋譜を
Bookから逆生成してみたところ結構な件数が…というか、ざっくり見積もって既に
３万件超え。どうやって復旧するか悩むところ。というか、おそらくこれやったらまた
F5f6の筋が死亡しそうな予感。これから対策を考えます。むむむ。

そのほか、部分的に遡って完全読み切りした時に、そこまでたどり着いていない
筋の方が良い評価値になってしまうという、Bookに生じる矛盾を解消する処理を追加。
こちらは結構綺麗にできた。

107: 310 2020/02/12(水)00:35 ID:Gx8MvMLI(1/2) AAS
対称形の合流問題、一応のプログラムできた…と思う。

ロジック的には色々なやり方があるのだけど、処理時間とどこまでやるのかという
ところが悩みどころ。今のままで動かすか、どうするか。

ちょっと悩みたいので一旦ペンディング。

108: 310 2020/02/12(水)22:15 ID:Gx8MvMLI(2/2) AAS
一晩寝かしてプログラム破棄（汗

もともとある対称盤面の処理ロジックを生かして、F5筋しかない棋譜をC4/D3/E6に
対称変換する事で、根本的に解決しようという方向になりました。副作用はBookが
４倍に膨れるのと、F5スタート限定だった評価関数のエラーがいったん大きくなって
しまうために、学習しなおさなければならない事です。

やってみたら、Bookサイズでかすぎてメモリーギリギリ。仕方がないので６０手目まで
作っていたBookを４０手目までに限定。あと敢えて残して（意図的に作って）あった、
２４手目以降のベストではない分岐も別途保存して一回削除しました。

メモリ６４G以上欲しい…。スレッドは１６くらいで十分なので。

109: 535 2020/02/12(水)23:03 ID:OxY0+llC(1/2) AAS
メモリ欲しいですよね〜。

110: 535 2020/02/12(水)23:12 ID:OxY0+llC(2/2) AAS
Ryzen Threadripper 3990Xに最適化したDDR4-3600 256GBメモリキットがG.SKILLから
外部ﾘﾝｸ:www.gdm.or.jp

111: 535 2020/02/13(木)20:29 ID:t0qxkX+C(1) AAS
今更だけど、メモリよりHDDのほうがでかいわけだが、全部メモリに乗らないとするとどうやってプログラム組めばいいか悩ましいな。
ホント今更だけど。

112: 310 2020/02/15(土)00:33 ID:aU7p7RKo(1/2) AAS
スピードが必要な部分はメモリーに無いといかんわけで。
今は探索でBookを参照しているので、Bookアクセスには速度が必要なわけで。
Bookは重要だけど棋譜は既に重要ではないわけで。
棋譜はSDDに移そうかなと思っていたりします。
どうせ要所要所で保存しているわけだし、都度読み込めばみたいな。
（HDDは遅すぎるので論外かと）

ただ…今のロジックがメモリー前提なのと、棋譜ですら読み込みに数秒かかる
状態なので、できればメモリーに置いときたい。そもそも、大した容量じゃないし。

自分の場合、本体でBook読み込むのと、同時にZebraと突き合わせながら間違い
箇所探しで掘り進める用に、Bookを確認するプログラムも同時に動かしていて、
そちらでも同じサイズのBookを読み込まざるを得ないので、16Gのメモリーが
あっても、半分くらいに抑えておかないといけないという問題があります。

頭の片隅にバイナリファイルのランダムアクセスってのがちょこっとだけありますが、
それって自分用DBを作るようなものなので、悩み中。とはいえ、最終的にもしオセロ
の対戦プログラムにするのなら、今ほど探索時間気にするわけでもなし、動作環境
として要求するメモリー量が大きすぎるのもなんだかなぁと思っていたりもします。

113: 310 2020/02/15(土)00:35 ID:aU7p7RKo(2/2) AAS
そんな事より、対称形サポートして棋譜作っていたら、またF5f6系が全滅して
途方に暮れていたところで、知らぬ間に復活していたり。間違い可能性高い
パブリックドロー筋が復活したと思ったら、またダメだったり。

まだ棋譜作成が足りていないという事実に直面しています。

114: 310 2020/02/18(火)00:26 ID:xu5XdmKn(1) AAS
対称形サポートでBookはだいぶ良くなって来た感じですが、完全読み切りの探索時間
が遅くなった。まだ新しい教師データに対して学習不足なんだと思いますが、どこまで
復活するか。

残り３０手読み切り時間がかかりすぎる。棋譜作成のプログラムの方は、ほぼ出来上
がってしまったので、動作具合を見ているだけになっている。何か探索高速化のネタは
無いものか。

PC一つ買って、そちらでオセロの棋譜作成させながら、別の何かの開発を始める時な
のかも知れない。

115(1): 535 2020/02/18(火)00:27 ID:kv2P7/8Y(1/3) AAS
とりあえずモンテカルロ1000poで10〜50手打ち進めてその局面で100000po回して結果の黒番の勝利回数、スコアの合計を収集するプログラムを作成。
あんまりいい方法じゃないとはおもうけどこれだというアイディアもないしこれで一回やってみます。

116: 535 2020/02/18(火)21:44 ID:kv2P7/8Y(2/3) AAS
マシンパワー欲しいすな。
3990xでも足りないかも。

アルゴリズム見直せと言われそうだが。

117: 535 2020/02/18(火)22:28 ID:kv2P7/8Y(3/3) AAS
まーでも310さんも言ってるけど計算にマシン取られるとヒマですね。
AWSとか使うのも面白いかもしれないけどいかんせん金が…

118: 535 2020/02/20(木)18:12 ID:YadOsXz6(1) AAS
夜中動かすとファンがうるさくてねれないorz
やっぱaws…
でも金が…

119: 535 2020/02/20(木)20:15 ID:BvOV7XJR(1/2) AAS
でもまあ、コロナでいつポックリいくともわからないならいっそ3990x買っちゃうってのも考えようによってはなくなないな。

120: 310 2020/02/20(木)22:03 ID:KuvbYeZk(1) AAS
たぶん感染経路不明な感染者が１０００人超えたらテレビも飽きてきて
めっきり話題にならなくると思うなｗ

121: 535 2020/02/20(木)22:44 ID:BvOV7XJR(2/2) AAS
70499種類の盤面のモンテカルロ勝率スコアデータが取れました。
これをもとにDNNをトレーニングしてみます。

122: 535 2020/02/21(金)21:02 ID:/4d3LiPl(1/2) AAS
やっぱ素のモンテカルロに勝てない！！！
どうしてなんだ…

123: 535 2020/02/21(金)22:56 ID:/4d3LiPl(2/2) AAS
単に白番有利説が急浮上ｗｗｗ

124: 535 2020/02/22(土)00:47 ID:j5uEDLd9(1/6) AAS
いや、ちがうっぽい。
うーん。

125: 535 2020/02/22(土)17:03 ID:j5uEDLd9(2/6) AAS
キター！素のモンテカルロに勝ち越しました！
黒番　31勝20敗
白番　32勝19敗

126: 535 2020/02/22(土)20:31 ID:j5uEDLd9(3/6) AAS
モンテカルロが間違える局面で間違いを訂正してそれをDNNに学習させる方法ないかなぁ

127(2): 310 2020/02/22(土)21:32 ID:wHsEFeMN(1) AAS
間違える局面が特定できているて、間違えた手を訂正できるんなら、
訂正後から対戦再開させて、その棋譜で局面DB更新して、学習するとか。

特定できていなくても、基本強化学習は、対戦→DB更新＆学習の
繰り返しで、徐々に間違いを訂正していく方法。もうちょっと工夫する
ならε-Greedyなどの手法で既存の棋譜の途中で無理やり別の手に
分岐させていく。その手が悪くても、「悪い手である」という認識を学習
させる事ができる。

線形計画だとモデルが上手くできていないと学習が飽和しちゃうけど、
DNNだったらある程度うまく学習してくれるかも。

128: 535 2020/02/22(土)21:53 ID:j5uEDLd9(4/6) AAS
>>127
特定も訂正も現状できてないですね。

それよりひどいバグを発見して>>115で取ったデータが全て台無しになる可能性が…

129: 535 2020/02/22(土)22:00 ID:j5uEDLd9(5/6) AAS
あかん、なんか全然おかしいorz
ちゃんと見直さないと…

130: 535 2020/02/22(土)22:22 ID:j5uEDLd9(6/6) AAS
データ取りからやり直しますorzorzorz

131(1): 310 2020/02/23(日)00:56 ID:9FygPBnT(1/4) AAS
間違い探しを続けるうちに、何故Zebraの評価値の方がまともに見えるか問題に
突き当りました。で、評価関数を手数毎に６０種類に分割している事で、学習データ
が不足しているとか、スムージングしていないために、２手前の自分の番の盤面との
差分が取れないとかの問題があるのかなぁと思い立ちまして…。

また、４対称採用した事で学習時間も４倍になってしまいまして…。

思い切って、評価関数を１つにまとめてみたらどうだろうと思い立って、専用の学習
プロジェクトを作ってやってみました。通常数百回学習しないとまともな学習ができ
ないのですが、２０回学習したところで、意外とフィットしてしまいました。学習時間も
少し減ってる気がする。

一旦評価関数の癖を変えたほうが強化学習も進むかなと思い、とりあえず本番採用
してみました。気持ち速度も速くなった気がしています。もっとも、評価関数の学習具合
によってαβのorderingも変わって速度が変わったりするので、今後学習を積み重ね
て、過学習気味になったりした時にどうなるのかは不明。

これから数日動かしてみて、良かったらこっちにしようかと思います。強いオセロAIを
作るのなら、対戦してどっちが強いとかやるのが本来なのですが、特にそういう目標も
現状あるわけでなし（汗

132: 310 2020/02/23(日)01:08 ID:9FygPBnT(2/4) AAS
>>127に捕捉しとくと、

自分はGreedyな手法の精度をあげるために、浅い探索（９手）と組み合わせて、
評価値が少しだけ悪い手とか、Book登録ないのに評価値が良いとか、いくつかの
基準の訂正ロジックを作って、明らかに悪い手を排除したGreedy法をとって、
既存の棋譜に対して順次分岐を生成していく事で、Bookを埋めて行っています。

分岐は１３手読みで作成していますが、この分岐も間違いがそれなりにあるため、
間違いを積み上げているのではないかという懸念もあります（汗

オセロの場合、黒白両者とも最善の場合、引き分けに収束する可能性が濃厚なため
初手から最善引き分けとなるツリーについては、先頭側からこのGreedy法で分岐を
生成し、また（後ろから）確定読み切りを優先して実行する事で、引き分け手順だけ
優先的に精度を上げています。

評価関数作るのに、こういう制約をつけた方法が良いのかは不明です。現に極端に
形勢が傾いた盤面の読み切りは、学習データが不足しているために、引き分け盤面
よりずっと時間がかかるように感じています。

133: 310 2020/02/23(日)03:01 ID:9FygPBnT(3/4) AAS
げげ。>>131の奴、本番に入れて学習させたらうまく動かん…。

原因箇所は特定できたけど、そもそもBook分だけで学習していて、後半の棋譜から
教師データ作ってなかったので、件数が大幅に違う。後ろ１５手分が抜けている。

が、これが入ると学習の途中で無限ループに入ってしまう。
何かのオーバフローなんだと思うけど、今は原因不明orz

上下前次 1-新書関写板覧索設栞歴

あと 503 ﾚｽあります
ｽﾚ情報赤ﾚｽ抽出画像ﾚｽ抽出歴の未読ｽﾚ

ぬこの手ぬこTOP 0.009s