【オセロ,将棋】ボードゲーム【囲碁,War】

[過去ﾛｸﾞ] 【オセロ,将棋】ボードゲーム【囲碁,War】 (1002ﾚｽ)
上下前次 1-新

このｽﾚｯﾄﾞは過去ﾛｸﾞ倉庫に格納されています｡
次ｽﾚ検索歴削→次ｽﾚ栞削→次ｽﾚ過去ﾛｸﾞﾒﾆｭｰ

751: 535 2017/03/02(木)23:28 ID:ejFPCGdH(4/4) AAS
ずいぶん昔に書いたコードにバグがあった。
ビビるくらい致命的な奴。
よく今まで動いてたな。

752: 310 2017/03/03(金)01:05 ID:0ijSS6CX(1) AAS
次の１手もDCNNもなんか上手くいかないので、アルファ碁の原点に戻りました。
アルファ碁のMTCSとしての特徴は、各ノードで評価関数を動かして、そのノードに
点をつけて勝率と５０％混合する事で、ノードの選択に事前に差をつけてしまう事に
あります。これによって、負けが多いけど１手だけ良い手があるルートを正しく評価
する可能性を高めていると解釈しています。

で、評価関数はオセロでは線形和で確立されているので、昔の奴をと思ったのですが、
どうせならMLPのライブラリ使ってしまえばEigenが使えるので信頼性高い上に、学習
率の最適化でモーメンタムどころかSMORMS3が使えるようになります。インプットが
とても疎なので、EigenのSparseMatrixを使って高速化を図ります。

早速作って学習させてみたところ…僕の記憶が確かなら以前のプログラムの数十倍
くらいの速度で動いています（汗。これなら１００エポックくらい楽勝。

今は評価値を計算させていますが、一旦できたら、次のステップで勝率を計算させられ
ないかなぁと。ただ、評価値がある程度正確なら、勝率ではなく平均スコアでプレイアウト
しても良いのかなと思っています。

753: 535 2017/03/04(土)22:29 ID:ZrhUKe4E(1) AAS
DB初期化に35秒かかる。
コンパイラを64bit版に変えると11秒になる。
なぜこんなに差が…
ちなみに囲連星本体が32bitプログラムだからコンパイラ変えられないT△T
なんとかならんか？

754: 535 2017/03/05(日)03:39 ID:LufQ1oMY(1) AAS
コンパイラの問題じゃなくてライブラリを静的リンクするか動的リンクするかの違いみたいです。多分。
かなり早くなった^_^

755: 535 2017/03/06(月)18:17 ID:XCrs8w8i(1) AAS
思考時間は試行回数に直結する
重いモンテカルロは一旦封印する

756: 310 2017/03/10(金)01:25 ID:4qfAid0y(1) AAS
評価関数の作り直しを始めたら、計算してはやり直しの繰り返しです。
計算速度が上がったので、比較的気楽に再計算できちゃうのがいかん。

勝率の計算もしてみましたが、結果は似たようなものでした。
いずれにせよ、もう少し精度を上げたいなぁ。

757: 535 2017/03/14(火)22:28 ID:KNe/k0R5(1) AAS
LV1の棋譜はDBから削除したほうがいいみたい。
いいとこどりとはいかないか。

758: 535 2017/03/15(水)21:45 ID:gknDrLfY(1) AAS
囲連星のルールは囲碁と共通部分があるから囲碁AIを参考にするのが良いと思っていたが
７連を作れば勝ちというのは王様を詰ませれば勝ちという将棋のゲーム性に近いものがあるのかもしれない。
将棋AIの手法も調べてみるべきか?

759: 535 2017/03/18(土)23:34 ID:VnDB8sqw(1) AAS
手書き評価関数やっぱうまくいかないな。
LV０やLV１も実は結構強かったんだな。
反省。

760: 535 2017/03/19(日)00:56 ID:y6fifsqj(1) AAS
やっぱ機械学習しかない。（無限ループ）

761(1): 535 2017/03/21(火)22:23 ID:xGpFrIPp(1) AAS
特徴量と棋譜は用意できる。
棋譜の勝者の着手に対してどの特徴量が優先的に選択されたか？を計算したい。
どうすればいいかな？

762: 2017/03/22(水)00:39 ID:/GDSNvuJ(1) AAS
優先的とか無いでしょ
評価関数は全ての特徴量に対応する評価点を合計するだけ
その各評価点の絶対値が大きくて評価値に割と大きな影響を与えるとかゼロに近いとかはあるけど

763: 310 2017/03/22(水)09:25 ID:sNSr7O3Z(1) AAS
>>761
それを統計的に処理して求めるのが線形回帰。
収束アルゴリズムは最急降下法を使用するのが普通。

特徴量あり１、無し０で特徴量並べたベクトルを食わせて、
荷重値であるウェイトを同数用意して内積計算。
出て来たスカラ値が、教師データに合うようにウェイトを収束計算させる。

出て来たウェイトが対応する各特徴量の重要度を表す。

764: 535 2017/03/22(水)20:48 ID:rRrXmS1r(1/2) AAS
自力で線形回帰を実装するのはしんどそう。
なにかいいライブラリないですか？
>>535のMM法が動いてくれれば話は早かったのになぁ

765: 535 2017/03/22(水)21:25 ID:rRrXmS1r(2/2) AAS
もう一度MM法トライしてみるか…

766(1): 310 2017/03/23(木)17:35 ID:xjqriUpX(1/2) AAS
線形回帰というか、最急降下法自体はたいした事ないよ。
ひたすらループ回して、答えを出して、教師データとの差に比例して
ウェイトを調整するだけ。ニューラルネットになるとバックプロパゲーション
が出てくる（これも似たようなものだけど）違いがあるけど。

とりあえず実装の参考にするならこれ。
外部ﾘﾝｸ[pdf]:sealsoft.jp

GitHUBとかで探すとなんかあるかも。裏ワザではMLPのライブラリ落として
来て、１層の活性化関数無しの全結合層で計算させるって手もある。

767: 310 2017/03/23(木)17:40 ID:xjqriUpX(2/2) AAS
こちらは、線形回帰の評価関数を作り直して、勝率と石差の２つ用意して、
アルファ碁っぽくMCTSに組み込んでみました。

で、テスト開始したらやたらと落ちる。
線形回帰の計算にEigen（行列パッケージ）を使用していたんだけど、こいつ
が並列処理に対応していないのが原因臭い。

というわけで、学習部分と、MCTSで使う評価関数を切り分けて、評価値を
求める時はEigenを使わないように改造中です。

果たして強くなっているのか。

768: 535 2017/03/23(木)20:11 ID:rddo+SDA(1) AAS
>>766
ありがとうございます。
さらっと読んでみました。
いい感じの文章ですね。
なんとなくイメージは掴めましたが、実際実装するのは結構大変そうな気がします。
まずはMM法でやり直してみて、駄目だったら手を出してみます。
すいません。

769: 310 2017/03/25(土)10:29 ID:8t9unId8(1/2) AAS
学習時と使用時の評価関数の切り分け。簡単にやるつもりだったのに、
バグ一杯出してデバッグで大変な事に。

デバッグが行き詰ると、気になっていた箇所を綺麗に直して手を動かし
続けたくなるんだけど、つい計算結果に影響が出てしまうところまで
手を入れてしまい、結局また再度学習しなおしです。

一応バグは解消したと思っていますが・・・
この土日に確認まで行けるか微妙。

770: 2017/03/25(土)15:51 ID:eEMcRod/(1) AAS
自作アナログゲームを投稿・共有できる「紙ゲー.net」がオープン
外部ﾘﾝｸ:www.moguragames.com

771: 535 2017/03/25(土)21:50 ID:S05KfsXi(1) AAS
特徴量、用意できるって言ったけど、いざ作ろうとすると迷うｗ
あれもほしい、これもほしいとなって発散してしまう。

772: 310 2017/03/25(土)23:15 ID:8t9unId8(2/2) AAS
特徴量の選択はね・・・

実際にその特徴量を使って統計処理（線形回帰でもMLPでもDCNNでも何でも可）して
みて、結果の精度に効くものを残して、効かないもの（ウェイトがゼロになるとか、外して
も精度が変わらないとか）を外して、結果的に決まるものじゃないかと思います。

そういう意味じゃ、仮説検証でトライアンドエラーしないといかん。

オセロではBuroさんが論文書いてくれているので、皆それをベースに小修正程度で、
ほぼ同じ精度のものができちゃいますが、そういう先行者がいないゲームだと、自分で
やらないといけないので大変だと思います。

DCNNで「特徴量を自動的に決めてくれる」ってのに、皆が胸熱になったのは、そういう
事です。自分はオセロに応用しようとして、失敗して、後回しにしちゃいましたが。

773: 310 2017/03/27(月)01:55 ID:n7C1rJ6D(1) AAS
アルファチックなMCTSオセロですが、とりあえず途中まで学習してテストしたところ・・・。

終局しているのに両者パスでツリーが伸びて行ってしまう（汗
何度チェックしても原因不明。ブレークポイントでチェックすると、あり得ない場所で
ボードデータが書き換わっているように見えますが…。並列探索が原因かと思い、
シングル動作にしてみましたが、それでも同じ。かなり重症です。

が、それを除くと、途中までテストした感じでは、最善手を打てている模様。
まだ序盤なのにツリー成長が尋常ではなく、終局までツリーができています。
不要な手をカットする仕組みとして、十分すぎる性能になっています。
とはいえ、勝率判定はそれほど正確ではないので、変な局面に誘導されると、
読み抜けが問題になってくるかも知れません。

もしかしたら、終局後もパスでツリーが伸びている問題は、これまでもあったけど、
終盤完全読みにしていて見えなかっただけかも知れません。

774: 310 2017/03/28(火)03:12 ID:Cq+qEzvW(1) AAS
パスが伸びる原因は判明。

着手後の盤面を返す関数で、合法手じゃない着手を要求された時を
エラーにせず、元の盤面をそのまま返していたため、手が進まなくなって
いたのが原因だった。

が、そもそも合法手以外の手を渡すはずがないから、エラートラップして
いなかっただけで・・・

まだ根本原因にはたどり着けず。

775: 535 2017/03/29(水)21:27 ID:a7v8cJOT(1) AAS
MM法動きました！
でも全然強くないｗ
特徴量が悪いのか棋譜が足りないのか…

776: 310 2017/03/29(水)21:53 ID:4lOT7Sa+(1) AAS
大体バグがとれました。

Zebraの学習モードと対局。
F5-D6から１０手目までは定石使用。その後４０手目まで新AIで手を分析。
途中数回-2の手を打つものの、そのまま終盤まで行き、−４〜−６くらいで安定。
４０手前に負け趨勢が判明（勝率３０％くらいかな？）するとご乱心モード入り（汗

というわけで、Zebraレベルまで、もう少しという感じです。

評価関数を使用したプレイアウトは、重すぎる上に結果も散々で、結局のところ
以前の角評価付相手着手可能数ヒューリスティックで３手を選択し、７５％２０％
５％で振り分けるものを使用しています。評価関数型の方は多分softmaxで
使うexpの計算が重いと思うので、テーブル化を検討してみようかと思います。

一番の改善点は・・・。評価関数で悪いと評価された手には、プレイアウトを割り当て
ないので、とにかくツリー展開が縦深します。３０秒思考で１２〜１４手目には、一番
読んでいる枝は終局に達しています。これで、モンテカルロの偶然がかなり減って
いる印象です。また、余計な横枝が伸びていないので、メモリーにも優しいです。

２手ほど間違えるのは、ツリー展開の初期値で与える評価値の誤差が原因と思います。
ここは、今の評価関数では、これ以上精度出せないので、何か手を考える必要あり。

あと、いくつかの定数調整かな。

777: 310 2017/03/31(金)20:13 ID:Hurb1/nC(1) AAS
expの計算は重さの原因ではありませんでした。やはり単純に評価関数が重い模様。
プレイアウトはヒューリスティックのsoftmax版に変更。

ツリーの初期の評価値は、数手読む事で精度アップを図ってみましたが、３手も読む
とかなり時間がかかって、プレイアウト回数が1/10以下になってしまうので、バランス
見て２手読みにしてみましたが、これで強さが変わるのか不明。

１０〜１５手目で１回。３５手前後で１回づつ間違えて、負けを確信したところで乱心。
試しに１５手まで定石DBを使うようにしてみたところ、３５手目まで引き分けで行けました。
やはり３５手目で間違えて−６。むむむ。

４０手までの棋譜。
F5 D6 C3 D3 C4 F4 C5 B5 B4 B3
E7 C6 B6 E6 F6 D7 C8 A6 C7 E3
F3 G4 G3 E2 H3 G5 G6 F7 E8 B7
F2 B8 D1 F1 A8 A7 A5 D8 A4 A3

３５手目のA8以下を、A5 A4 E1 C1 A8 A7としていれば引分でした。
評価の順番はA8/E1/A5と、正解を３番手に予想しています。
Zebraの中盤２０手読みでもE1と間違える局面で２４手読みだと正解するみたいです。

実をいうと、途中で邪魔が入って放置している間に、バックグラウンド探索で１０００万
プレイアウトの上限に２回達しています。強さ図る時はバックグラウンド探索を止めない
と意味ないかも。

囲碁AIの本を読んでいたら、プレイアウトの精度の検証に、プレイアウト結果盤面を
統計的に処理して、終局予想図を出す方法と、重要な手を見つけるクリティカリティと
言う概念の説明がありました。この辺使って、プレイアウトの弱点探してみます。

778: 310 2017/04/01(土)01:30 ID:Wq4mpDtN(1/5) AAS
直すところが無くなってきたのでパラメータ調整。
たまたまだと思いますが、初めてZebraの中盤２４手読みと引き分けました。

こちらの設定は、バックグラウンド探索無しの１手１分（相手も３０秒考えるという想定）
定石１０手まで。完全読み切りルーチンなし。

F5 D6 C3 D3 C4 F4 C5 B5 B4 B3
D7 C6 B6 E6 F6 G5 G6 E3 A5 E7
F3 G4 E2 C2 H4 H3 H6 H5 C7 D8
G3 H7 A3 A4 A6 H2 F8 F7 C1 D2
C8 E8 F2 D1 F1 B1 E1 G1 B2 A1
A2 B8 A8 B7 A7 G2 H1 H8 G7 G8

ちなみにZebra側は全てBookにあった模様で、一度も中盤探索していません。

779: 535 2017/04/01(土)11:28 ID:Gu8vVrdS(1) AAS
おおーZebra越えが見えてきましたか凄い！
こっちも頑張らねば…

780: 310 2017/04/01(土)12:57 ID:Wq4mpDtN(2/5) AAS
あ、たまたま４月１日の投稿ですが、嘘ではありませぬ(^^;
Zebraがエイプリルフールしてくれたのかも知れませんが。

今回はZebra側は、全部Book上で打っていたので、思考時間実質ゼロです。
Bookを変化させるにして、最初にZebra側がBook評価で-0.5くらいの手を選んで
くれたので、緩まずに終盤まで行ったのかも知れません。

でも、流石に思考時間１分はやり過ぎですよね。
あと、Zebraの中盤探索と勝負したいのですから、ZebraもBookを切った方が良いかな。

上下前次 1-新書関写板覧索設栞歴

あと 222 ﾚｽあります
ｽﾚ情報赤ﾚｽ抽出画像ﾚｽ抽出歴の未読ｽﾚ

ぬこの手ぬこTOP 0.026s