【オセロ,将棋】ボードゲーム Part3【囲碁,War】 (636レス)
【オセロ,将棋】ボードゲーム Part3【囲碁,War】 http://mevius.5ch.net/test/read.cgi/gamedev/1574503798/
上
下
前
次
1-
新
通常表示
512バイト分割
レス栞
131: 310 [sage] 2020/02/23(日) 00:56:57.70 ID:9FygPBnT 間違い探しを続けるうちに、何故Zebraの評価値の方がまともに見えるか問題に 突き当りました。で、評価関数を手数毎に60種類に分割している事で、学習データ が不足しているとか、スムージングしていないために、2手前の自分の番の盤面との 差分が取れないとかの問題があるのかなぁと思い立ちまして…。 また、4対称採用した事で学習時間も4倍になってしまいまして…。 思い切って、評価関数を1つにまとめてみたらどうだろうと思い立って、専用の学習 プロジェクトを作ってやってみました。通常数百回学習しないとまともな学習ができ ないのですが、20回学習したところで、意外とフィットしてしまいました。学習時間も 少し減ってる気がする。 一旦評価関数の癖を変えたほうが強化学習も進むかなと思い、とりあえず本番採用 してみました。気持ち速度も速くなった気がしています。もっとも、評価関数の学習具合 によってαβのorderingも変わって速度が変わったりするので、今後学習を積み重ね て、過学習気味になったりした時にどうなるのかは不明。 これから数日動かしてみて、良かったらこっちにしようかと思います。強いオセロAIを 作るのなら、対戦してどっちが強いとかやるのが本来なのですが、特にそういう目標も 現状あるわけでなし(汗 http://mevius.5ch.net/test/read.cgi/gamedev/1574503798/131
132: 310 [sage] 2020/02/23(日) 01:08:08.23 ID:9FygPBnT >>127に捕捉しとくと、 自分はGreedyな手法の精度をあげるために、浅い探索(9手)と組み合わせて、 評価値が少しだけ悪い手とか、Book登録ないのに評価値が良いとか、いくつかの 基準の訂正ロジックを作って、明らかに悪い手を排除したGreedy法をとって、 既存の棋譜に対して順次分岐を生成していく事で、Bookを埋めて行っています。 分岐は13手読みで作成していますが、この分岐も間違いがそれなりにあるため、 間違いを積み上げているのではないかという懸念もあります(汗 オセロの場合、黒白両者とも最善の場合、引き分けに収束する可能性が濃厚なため 初手から最善引き分けとなるツリーについては、先頭側からこのGreedy法で分岐を 生成し、また(後ろから)確定読み切りを優先して実行する事で、引き分け手順だけ 優先的に精度を上げています。 評価関数作るのに、こういう制約をつけた方法が良いのかは不明です。現に極端に 形勢が傾いた盤面の読み切りは、学習データが不足しているために、引き分け盤面 よりずっと時間がかかるように感じています。 http://mevius.5ch.net/test/read.cgi/gamedev/1574503798/132
133: 310 [sage] 2020/02/23(日) 03:01:39.99 ID:9FygPBnT げげ。>>131の奴、本番に入れて学習させたらうまく動かん…。 原因箇所は特定できたけど、そもそもBook分だけで学習していて、後半の棋譜から 教師データ作ってなかったので、件数が大幅に違う。後ろ15手分が抜けている。 が、これが入ると学習の途中で無限ループに入ってしまう。 何かのオーバフローなんだと思うけど、今は原因不明orz http://mevius.5ch.net/test/read.cgi/gamedev/1574503798/133
134: 310 [sage] 2020/02/23(日) 10:00:35.35 ID:9FygPBnT たぶんなおった。 学習の進行具合インジケータの*印の数を作るところでオーバーフローして 延々と*を表示し続けてるだけだったw こういうところで適当にint使っているのがいかん。 と、怪しそうなところをsize_tに直したら、整合性が取れなくなってワーニングの嵐w 適当にsize_tにすればよいというものでもなかったw http://mevius.5ch.net/test/read.cgi/gamedev/1574503798/134
135: 535 [sage] 2020/02/23(日) 22:36:15.39 ID:xJvwRHu1 オーバーフローが嫌だからついlong longを使ってしまうw メモリ余計に食うけど。 http://mevius.5ch.net/test/read.cgi/gamedev/1574503798/135
136: 535 [sage] 2020/02/24(月) 18:53:46.31 ID:S84dSY4F タイルゲーム、完全解析した後でもそれなりに楽しめる不思議。自力では勝てないからな。 そういやconnect4より複雑で完全解析されててネットで遊べるゲームってなにかあるのかな? http://mevius.5ch.net/test/read.cgi/gamedev/1574503798/136
137: 535 [sage] 2020/02/25(火) 20:37:07.39 ID:10rOW9ls データ取りなおしたので再度DNN学習させてみます。 ついでにネットワーク少し大きくしてみます。 http://mevius.5ch.net/test/read.cgi/gamedev/1574503798/137
138: 535 [sage] 2020/02/26(水) 20:24:56.08 ID:LbNvrAvP なんかDNNほぼ最悪の手を打つんだが… 真逆の学習させちまったか? http://mevius.5ch.net/test/read.cgi/gamedev/1574503798/138
139: 535 [sage] 2020/02/26(水) 20:40:14.06 ID:LbNvrAvP 試しに評価値に*-1してみたがやっぱり悪い手を打つ。 真逆ってわけでもないのか? わけわからん http://mevius.5ch.net/test/read.cgi/gamedev/1574503798/139
140: 535 [sage] 2020/02/26(水) 20:50:37.02 ID:LbNvrAvP モンテカルロ木探索の部分が間違ってたっぽい http://mevius.5ch.net/test/read.cgi/gamedev/1574503798/140
141: 535 [sage] 2020/02/26(水) 21:22:57.03 ID:LbNvrAvP うーん、なんかアルファ碁Leeみたいに、数手前の手順を学習データとして食わせるといいかもなぁ。 石がぶつかってる時の判断がちょっとおかしいんだよなぁ http://mevius.5ch.net/test/read.cgi/gamedev/1574503798/141
142: 535 [sage] 2020/02/26(水) 21:35:19.66 ID:LbNvrAvP もうヒューリスティックもモリモリ入れちゃおうかなぁ http://mevius.5ch.net/test/read.cgi/gamedev/1574503798/142
143: 535 [sage] 2020/02/27(木) 19:12:50.92 ID:7f4H7cqb お、微妙に勝ち越している。 でも微妙すぎw http://mevius.5ch.net/test/read.cgi/gamedev/1574503798/143
144: 535 [sage] 2020/02/27(木) 21:11:32.40 ID:7f4H7cqb 先制攻撃を仕掛ける体制が整っているかどうかの判定が今後の課題ですね。 http://mevius.5ch.net/test/read.cgi/gamedev/1574503798/144
145: 535 [sage] 2020/03/01(日) 21:57:12.55 ID:X+Ti9n7n 先制攻撃を仕掛けた時に反撃で逆に取られる確率とか学習させたら駄目かなぁ? http://mevius.5ch.net/test/read.cgi/gamedev/1574503798/145
146: 535 [sage] 2020/03/02(月) 06:27:35.74 ID:Td8MIT1I ある局面に対し、それぞれの点が黒の地になる確率のベクタを返すようにDNNを学習したらどうだろう? http://mevius.5ch.net/test/read.cgi/gamedev/1574503798/146
147: 535 [sage] 2020/03/03(火) 21:11:27.98 ID:PL4UDoSq 前回はスコア差を評価値に学習させましたが、今回は勝率で学習させてみます。 結局セオリー通りがいいのかもしれないので。 ホントはスコア最大化はぜひともやりたいんだけど。 http://mevius.5ch.net/test/read.cgi/gamedev/1574503798/147
148: 535 [sage] 2020/03/04(水) 20:23:35.42 ID:Q7ItuMwb 勝率で学習させたら黒番は勝ち越してますが、白番は負け越してますね。 白番でも勝てると思いましたが。 http://mevius.5ch.net/test/read.cgi/gamedev/1574503798/148
149: 535 [sage] 2020/03/04(水) 20:44:28.42 ID:Q7ItuMwb うお、バグ発見w DNNが全く働いてなかったww 黒番で勝ち越したのはたまたまやなこれは。 http://mevius.5ch.net/test/read.cgi/gamedev/1574503798/149
150: 535 [sage] 2020/03/04(水) 21:10:05.82 ID:Q7ItuMwb うーん、石をくっつけて打つなぁ もっとばらけさせたほうがいいと思うんだけど。 http://mevius.5ch.net/test/read.cgi/gamedev/1574503798/150
151: 535 [sage] 2020/03/04(水) 21:14:38.18 ID:Q7ItuMwb うーん、石がくっついているか離れているか標準偏差のようなものを出して学習パラメータに渡すとか http://mevius.5ch.net/test/read.cgi/gamedev/1574503798/151
152: 535 [sage] 2020/03/04(水) 21:17:15.27 ID:Q7ItuMwb ホントはあんま手動で特徴量出そうとするのよくないアイディアなんだろうけど。 http://mevius.5ch.net/test/read.cgi/gamedev/1574503798/152
153: 535 [sage] 2020/03/04(水) 21:43:12.15 ID:Q7ItuMwb 結局モンテカルロの勝率データだけだとだめっぽくて、いろんな戦略の中からより良いものを探すようにしたいなぁ http://mevius.5ch.net/test/read.cgi/gamedev/1574503798/153
154: 535 [sage] 2020/03/04(水) 22:34:42.21 ID:Q7ItuMwb あれ、黒番、白番ともダブルスコアで勝ち越してる?? まだ対局数少ないからあれだけど。 http://mevius.5ch.net/test/read.cgi/gamedev/1574503798/154
155: 310 [sage] 2020/03/04(水) 22:39:44.37 ID:XCbeW9Ri 自分は、最近、学習効率アップさせようと入れていたヒューリスティックなロジックは 見つけ次第外す方向だったりします。 棋譜作成の元ネタだけは、結構たくさん手動で追加していますが、見つけ次第追加 みたいなやり方で、偏りが出そうな気がするのと、手動追加だと入力ミスも結構あって 面倒なので、どこかで後続棋譜が少ない手順を順次自動で追加していくようにしちゃ おうかなと思ったりしています。ただ、本当に見てるだけになっちゃうのがちょっと嫌。 そんな事より、棋譜作成のペースが速すぎて、逆順での読み切り(スコア確定)が 追い付かない。 http://mevius.5ch.net/test/read.cgi/gamedev/1574503798/155
156: 535 [sage] 2020/03/05(木) 20:28:15.73 ID:P4JeNRVF 黒番 188勝 48敗 白番 176勝 55敗 めっちゃ勝ってる!! http://mevius.5ch.net/test/read.cgi/gamedev/1574503798/156
157: 535 [sage] 2020/03/05(木) 20:45:33.61 ID:P4JeNRVF 結局ポスグレ全く使ってないというw ま、当面ポスグレは保留かなぁ http://mevius.5ch.net/test/read.cgi/gamedev/1574503798/157
158: 535 [sage] 2020/03/05(木) 21:05:27.39 ID:P4JeNRVF とりあえず、この新しいAIで勝率データ取りなおして更に学習させるスパイラルへもっていくか。 http://mevius.5ch.net/test/read.cgi/gamedev/1574503798/158
159: 535 [sage] 2020/03/06(金) 20:19:27.94 ID:1GJjUnMY うお、人間(俺)に勝った! まぐれっぽいけど http://mevius.5ch.net/test/read.cgi/gamedev/1574503798/159
160: 310 [sage] 2020/03/06(金) 21:29:36.82 ID:76Zol1eh 小人閑居して不善をなす… 評価関数の学習周りをいじっていたら、学習エラーが大きく(4〜5倍)なってしまった。 オプティマイザーをAdamにしてみたのが悪かったのか(バグ?)、それとも他にいじった ところが悪かったのか。オプティマイザーを戻して、追加学習してみたけど、全然もとに 戻らない。 と言いながら、色々と溜まっていた懸案も機能追加してしまった。 結局、どうにも直らないのでウェイトを一旦クリアしてRMSpropで再学習してる最中です。 明日の朝にはまともになっているかなぁ。 http://mevius.5ch.net/test/read.cgi/gamedev/1574503798/160
メモ帳
(0/65535文字)
上
下
前
次
1-
新
書
関
写
板
覧
索
設
栞
歴
あと 476 レスあります
スレ情報
赤レス抽出
画像レス抽出
歴の未読スレ
Google検索
Wikipedia
ぬこの手
ぬこTOP
0.024s