[過去ログ]
【オセロ,将棋】ボードゲーム【囲碁,War】 (1002レス)
【オセロ,将棋】ボードゲーム【囲碁,War】 http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/
上
下
前
次
1-
新
通常表示
512バイト分割
レス栞
抽出解除
レス栞
このスレッドは過去ログ倉庫に格納されています。
次スレ検索
歴削→次スレ
栞削→次スレ
過去ログメニュー
リロード規制
です。10分ほどで解除するので、
他のブラウザ
へ避難してください。
487: 460 [sage] 2016/08/14(日) 16:42:16.06 ID:ALD5heTO >>310は>>482の間違いです。。 http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/487
489: 310 [sage] 2016/08/18(木) 15:43:08.07 ID:7GnJQiSP >>488 まだ細々やってます(汗 Eigenの導入と、少しづつ進んでいくC++技術のおかげで、前よりは試行の スピードはアップしていますが、なかなか成果は出ません。まだ、色々な パターンを試しながらディープラーニングって何ぞやを体感しているところ なんだと思います。 少なくとも「簡単に凄い事ができそう」という幻想は捨てる事ができました(汗 ボードゲームがターン制なら、基本はmin-Maxになると思います。 まずは、盤面の状態に(恣意的で構いません)点をつける評価関数作るところ から始めたらどうでしょう? 次のステップで評価関数に統計(線形回帰)を持ち込むと、ディープラーニング じゃなくても、プレイ譜がたくさん必要になります。 オセロの場合は、Buroさんという先人が、実用レベルの評価関数が線形回帰 で作れる事を示してくれています。 僕がディープラーニングを適用しようと思っているのは、ただの思いつきでして。 場合によっては、より軽くて正確評価関数が作れるかと思いましたが、実際に 始めてみると、なかなか評価関数として機能してくれないし、仮にできたとしても 重いものになっちゃいそうという感じです。 http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/489
492: 310 [sage] 2016/08/20(土) 16:51:13.03 ID:m44rb9b4 >>490 Buroさんが作った伝説のオセロプログラムがLogistelloです。 Thellというオセロプログラムの作者の方が日本語で解説してくれています。 http://sealsoft.jp/thell/learning.pdf 5.2の計算の高速化のところの説明(P.8の冒頭)のところ。 自分なりに解釈したら、自分が解釈違いしたのか、説明がおかしいのか、 この通りではなかった記憶があります。 とはいえ、これはオセロの考え方であって、将棋なんかだとbonanzaなどを 参考にすべきだし、全く別のゲームであったら、別な事を考えなければなり ませんね。当たり前ですが。 http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/492
494: 310 [sage] 2016/08/20(土) 21:29:23.21 ID:m44rb9b4 >>493 ですです。 あと、Deepじゃなくても、2層以上のパーセプトロンだと、線形分離不可能問題の 分類ができるようになります。XORの学習が典型ですね。 ところが、パターンの部分まで学習で求めてくれるってのは、やっぱり幻想でして。 ある程度パターンを想定しながら、ネットワークを作らないといかんのではないか という事に思い至っています。 例えば畳み込みニューラルネットワーク(CNN)で、何故畳み込みをするのかという と、縦線横線などの隣接ドット同士もつながりを識別してもらうためですし。そもそも 畳み込みのフォワード計算自体が、画像に対して例えば輪郭線強調といったフィル ターかけるのと、プログラム的に同じものだったりします。学習対象は、フィルターに なります。 オセロは、囲碁とかと違って、石の色がコロコロ変わるので、隣同士の石のつながで 判断するCNN的なネットワークをそのまま適用できないよなぁというのが、最近の諦め ポイントであります。 じゃあ、何に頼るかというと、自分はオセロ弱いので・・・No ideaだったりします。 あんな簡単な(DeepLearningと比較して)線形和でBuroさんの評価関数ができています ので、パターンを活かして、まずはそこに点数を割り振るところをMLPなんかでできない かなぁと思っています。 http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/494
497: 310 [sage] 2016/08/22(月) 02:41:50.59 ID:2ubnBUwd Kが余計で3桁間違えているんじゃないかと(汗 http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/497
498: 310 [sage] 2016/08/22(月) 02:46:41.58 ID:2ubnBUwd あ、違った。自分が3桁間違えていた。 全然おかしくないです。自分の2コアで13000Kくらい出てます。 シングルで同等の速度ですから、かなり速いとは思いますが、 敢えて言うなら2倍程度なら縮められないとは思えない差です。 http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/498
504: 310 [sage] 2016/08/23(火) 13:54:12.88 ID:LVh7XLe+ >>502 そのサイトは知りませんでしたが、同じことやっています。 自分の場合は、それをAVX2命令で1,7,8,9ビットシフトを4つ並列で動かす様にして、 右シフト左シフト2回の演算をC++で組んでます。並べて書くと混乱しそうだったので 演算オーバーライドしまくりで、バグ防止しました。 やっぱりアセンブラの方が速いんでしょうね。 ディープラーニングな評価関数の方ですが、突然収束を始めました。 まだ途中ですが、見た感じざっくりで、平均二乗誤差の平方根(σ)が0.6石程度に 収まりそうです。2σで1石、スコアは2づつ変わるので、評価逆転が起きる確率を 数%程度にするには、0.5石以下にしたい。 肝はミニバッチのサイズだった様です(謎)。ハイパーパラメータとしては考慮対象外 でしたが、テスト用に小さくすると収束が悪くなる感触があったので、思い切って大き くしてみたところ…大きくすればするほど記録を更新していくという状態。ついに212640 件という特大バッチサイズにしてしまいました。メモリー的にはまだいけるかも。 今までの比較検討データは全てパーになったので、検討済のネットワークも、バッチ サイズ変えて再評価です。今やってるのは、Buroさんパターンがベースのネットワーク ですが、もしかしたら入力ベタ打ちで「勝手に特徴抽出してくれる。すげー!」に戻るかも(汗 http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/504
509: 310 [sage] 2016/08/24(水) 10:40:19.04 ID:GpcelPIW こちらも大バグを見つけて放心中です(汗 ミニバッチサイズごときで収束具合が大きく変わるのがおかしい点。 ミニバッチサイズを大きくすると、収束点がかなり規則的に減少していくように見える点。 この2点から、寝ながらデバッグしてたんですが、テストデータの件数で平均を出すべき ところで、ミニバッチサイズで割っていた事に思い当りました。 で、修正して、行列の列数で割るようにしたのですが、今度は列数がリセットされていない 事が判明。どうもポインタ渡しで行列を渡した時に行数・列数が正しく引き継がれないよう な現象のようです。 というわけで、一瞬大喜びしましたが、全くのやり直しとなりました。 http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/509
512: 310 [sage] 2016/08/25(木) 00:17:23.06 ID:ZE8G6YuY >>510 Eigen導入前のプログラムみたいにFFOの盤面渡して評価値見るようにしていれ ば良かったのですが、あまりに収束しないので、収束の兆しが見えてからやろう なんて放置していたのが失敗でした。あまりに急速に状況が改善していったので、 0.5石切るか知りたくなって、確認が後回しになってました。反省orz ちなみに、列数がリセットされない問題も、原因がわかりました。 これも自分のミスというか、Eigenの使い方間違ってました。 Eigen便利すぎて、少なくとも行列演算部分に関してはバグフリーで、簡単に先に 進めちゃうので、細かいところがなおざりになっていたような感じです。 http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/512
526: 310 [sage] 2016/09/04(日) 17:00:43.77 ID:WEaBeSKk 実際、開発中ってアドレナリン出てるから、ほとんどノーテストで行けるところまで 行っちゃって後で何やってるの俺?って事がしばしば(汗 というかここ数日も、非常につまらない確認漏れというか、毎回間違うswitch文でバグ 出しているのに気づかずに、これはメモリーリークか?それとも計算式が間違ったのか? みたいな状態になっていました・・・。 さて、今いじってるディープラーニングの仕組みは、かなり汎用性持たせて作ってます。 あまりに収束具合が悪いので、試しに、Buroさんモデルにしてみました。1層の活性化 関数無しにして、入力プログラムを流用するだけなので簡単です。でも、なかなか収束 しない。そこで、過去にどこまで収束したのか、残ってるログを探したところ・・・実際、 同じような感じ(1σ=約3.5石)でした・・・つまり、なんかできてると言えばできているし これで満足かといえば満足ではなしと。また、なまじデバッグでまじまじ評価値を見ちゃっ たため、これで本当に使えてるのか?状態です。 で、ミイラ取りがミイラになって、ディープラーニングの学習係数の最適化手法とか、 学習効率向上の方法を色々実装してました。勾配ノイズなる手法も入れてみました。 一体自分はどこに向かっているのだろうって状態です。 http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/526
530: 310 [sage] 2016/09/05(月) 22:33:11.28 ID:KkVISbKe 上に書いた通り、線形回帰はディープラーニングに内包される計算手法ですので (実際に最急降下法とバックプロパゲーション部分以外の計算式はほぼ同じ)、 学習率の設定にディープラーニングの最新の手法が使えるんじゃないかと思います。 学習率を外から与えるのではなく、初期値だけ与えて、後は誤差の具合を管理して 動的に変える。しかも、各重み毎に個別に学習率を変える。という発想です。 参考) http://postd.cc/optimizing-gradient-descent/#gradientdescentoptimizationalgorithms http://qiita.com/skitaoka/items/e6afbe238cd69c899b2a ※)数式で、ただの変数のように書いてますが、行列だったりベクトルだったり解読が必要です 自分はこの中で一番新しいSMORMS3を使用してみたところ、モーメンタム法の10倍 以上の速さ(学習回数)で収束するようになったと感覚的に感じています。大体30〜 50回も回せば収束してしまう感じです。実装&テストだけして確認していませんが、 AdamやRMSpropでもそん色ない程度には速くなると思います。 でも、早いPCで解決できるんなら、それに越した事はありませんねorz http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/530
532: 310 [sage] 2016/09/05(月) 22:41:44.52 ID:KkVISbKe いかなディープラーニングでも評価関数をいきなり作るのは厳しい気がしてきてます。 ここはアルファ碁の学習の仕方にならって、最初は次の1手を学習させてみようかと。 で、今までは頭でわかったつもりになっていた、多クラス分類問題を調べてみると、 Softmax関数の微分(バックプロパゲーションで必要)がわからない事にあらためて 気が付きました。 幸い、Softmax関数の定義があるひな形プログラムがあったので、これから解読です。 人さまのプログラムを見ると、自分がいかにC++を知らないのか、思い知らされますorz http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/532
546: 310 [sage] 2016/09/12(月) 22:52:49.52 ID:5hD0Gf9W >>460さん、着実に進んでいてうらやましい。 自分はというと、だんだんとオセロの事は忘れて、ディープラーニングのプログラムの 確認修正、機能追加に頭がスイッチしちゃってる感じです。むむむ。 C++スキルも微妙に上がってきていますので、オセロ側に戻る時も、もう1回1から 全部コーディングしなおした方が良いかもw。ほとんどCの状態から始まって、もう3回 くらい書き直しているので、そんなに時間かからないと思うし。 と、どんどん脱線していくのであった。 >>545さん そのプログラム見てないですが、γというと、たいてい何かの係数パラメータじゃないかと。 http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/546
551: 310 [sage] 2016/09/16(金) 00:03:09.94 ID:44uFy3HE featureってコンピュータの世界では、機能を意味するよね。 あと、もう一度読み返すと、γが複数形になってるので、 γの数であってγの値ではなさそう。 「この機能で使用するγの数」となるけど・・・ これだけだと正直なんのこっちゃだねw この機能が何を表すかどこかに書いてないの? http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/551
561: 310 [sage] 2016/09/21(水) 01:01:30.09 ID:CFP8O8Vn >>558 http://www.slideshare.net/uenokazu/20130906-hayabusa これですね。色々AIの特徴を説明してますが、まあLogistelloの 日本語解説みたいな感じで、皆さんのAIもほぼ同じ構造かなと 思います。 テレビ番組企画でEdaxと良い勝負するAIを短期間で開発したという のが開発経緯らしいので、恐らくEdaxをたたき台にして定石DBの 学習をしていると思います。 つまり、Edaxよりちょこっとだけ強ければよいと割り切った目標をたて、 目標がはっきりしている分、手間をかける箇所を、定石DBの対局学習に 集中したって感じだと思います。想像ですが。 で、これ読んだ時に、オセロAIの強さって結局は定石DBじゃんと、 結構真剣に思いまして・・・。まあ、それゆえ、オセロAIの開発者の多くが ドロー進行のリストアップに走ってしまったのかなぁと。 http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/561
564: 310 [sage] 2016/09/22(木) 20:43:51.38 ID:esximYO0 BOOK学習ってあんまり実装例見ないので、その点は評価しても良いかなと。 Buroさんの論文はあるので、自分もいずれは実装しようと思っています。 が、BOOK学習で、別のオセロプログラムとひたすら対局学習させると、そのプログラム 相手限定ならほぼ負けないBOOKが得られるんです。 EdaxのBookは引き分け進行のリストアップで、そこに記載されていない分岐は、基本は 分岐した方が負けるはずなのですが、分岐後は純粋に評価関数の読みの勝負になるの で、いかなEdaxでも間違える事があります。で、勝った手順、負けた手順をリストアップし ていき、負けたら勝つ手順が見つかるまで、ランダムな手番で別の分岐を探していく。 Edax側がBOOK学習をオフにすれば、間違えた箇所は何度対局しても同じ間違いをする ので、勝った手順になれば勝ちは確定し、負け手順は自分は打たないようになっていく。 要するに、そのプログラムの弱点を学習する事になるので、勝率が上がっていく。 EdaxのBookより精度が良いというのとはちょっと違う気がします。 とはいえ、Edaxとかの引分進行リストをパクっても意味が無いし、限られた時間で、パソコン ぶん回して引分進行を発見していっても、間に合わないしで、これしかやりようがないんだ とは思います。 実はこれに気が付いた時、BOOK学習+乱数着手(打たない箇所がない)で、自己対局を 延々と続けていくと、究極のBOOKができるんじゃないかと妄想してしまいましたが、よくよく 考えたら、それって全手順リストアップというか、完全解析大差ない事に気が付きました(汗 http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/564
580: 310 [sage] 2016/10/02(日) 20:32:53.90 ID:n86BxDyi >>578 αβ刈りしているでしょ。 最初に読んだ手でα値が最高値になる。 次の手を1段読んだ時、それを超える手が出ないので、全ての手がβカットの対象となる。 本当に一番良い手を選べるんなら、そもそも読む必要がないけど、何らかのヒューリスティック な基準でよさそうな手から読むと、それが正解だった時に、βカットが大量発生して、実際に 読む事になるノード数が激減する。 αβ刈りみたいな方法は、後ろ向き枝刈と言って、完全読み切りに必要が無い手を読まずに 済ます手法。 http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/580
584: 310 [sage] 2016/10/03(月) 01:55:16.80 ID:alBluDZI >>582 深さはなんとも言えないけど、オセロで言えば、αβだけでノード数は1/100くらいに なるってどこかのサイトに出ていたかな。1/100だとアバウト2〜4手くらい深く読めるはず。 置ける箇所が結構絞られるゲームなので置換表入れたら更にいけるかもしれない。 あとはビットマップの実装だね。 ゲームの規模的には(ネットチラ見だけど7兆パターンって書いてあった)完全解析を ターゲットにしても良い気がする。軽はずみ発言だけど。 http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/584
585: 310 [sage] 2016/10/03(月) 02:02:27.60 ID:alBluDZI ちなみに。当方、Sparse正則化付AutoEncoderの実装に不安が付きまとった挙句、 MNISTという手書き数字認識のテストで動作確認をするという遠回りな事をしてます。 というか、何をしたら認識率改善するのかという事を考えて、色々といじって時間を 食ってました。 結果、オセロの方が盤面は狭いけど、良く現れる状態の数と、その特徴の複雑性が 圧倒的に違うので、やはり畳み込みのような、盤面の特徴の解釈の仕方を外から 与える方向に行く必要がありそうだという事になりました。 いままでも薄々気づいていたんですが。 ただ、画像解析や囲碁のように隣接するノードとの関係性からスタートしても意味がなさ そうなので、その辺の工夫をしてみようと思っています。 http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/585
591: 310 [sage] 2016/10/05(水) 12:08:04.26 ID:Iif/OHnc やっぱ囲碁行きたいですよね。 昔調べた感じでは、日本ルールと中国ルールで勝敗の判定が微妙に違って、日本 ルールだと曖昧なところがあるので、AI開発は中国ルールでしているみたいです。 ルールの実装は着手禁止点が少なくて拍子抜けするくらいですが、その先が・・・ 色々と一筋縄ではいかないようです。 オセロの評価関数ですが、AutoEncoderの限界を感じ、DCNNの実装を始めていますが、 バックプロパゲーションがスパゲッティでわけわからん状態になっています。しばらくは 紙と鉛筆で考える必要がありそうです。DCNNがある程度できたら、僕も囲碁に行って みようかな。 その前にConnect4に脱線してみたい気も(汗 http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/591
600: 310 [sage] 2016/10/06(木) 22:11:43.15 ID:2nbHwrUk >>598 投了は将棋用語で「参った」です。むしろ中押し勝ちと同じ意味です(汗 将棋の場合、詰まれるまで粘る事はみっともないこととされているので、 入玉とか千日手、反則負けなどの特殊なケースを除けば全て投了です。 囲碁は、逆に終局まで打つ事があって、「数え碁」と呼ぶみたいです。 この間のアルファ碁vsセドルの試合見て覚えました(笑) オセロのように必ず最後まで打って、得点差がはっきりと出るゲームの 方が珍しいのかも知れません。 オセロみたいなmin-Max+評価関数は既にダメ認定されてます。 アルファ碁までは、MTCS(モンテカルロツリーサーチ)が主流で、 モンテカルロ系には評価関数はありません。着手順決定のための ヒューリスティックが大事になります。 アルファ碁の登場で、一気にディープラーニングにシフトしていますが、 基本骨格はMTCSです。着手順のヒューリスティックに「次の1手を返す DCNN」と、評価値たるモンテカルロの勝率に、補助的に「勝率を返す 評価関数としてのDCNN」を組み合わせているようです。 http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/600
601: 310 [sage] 2016/10/08(土) 22:22:06.53 ID:wBSLMo4h あ、MTCSじゃねー。MCTSだ。 >>600書きながら、Q-Learningなるものの存在を思い出して、調べ始めたら、 やっぱりDQN(ブロック崩しで有名になった奴)はQ-Learning+DeepLearning だった。 興味津々だけど、どんどん発散しちゃうなぁ。 http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/601
606: 310 [sage] 2016/10/13(木) 11:06:43.08 ID:f6Nd8WJL ここ数日、気分転換でConnect4やってました。 ビットマップ方式の置換表付αβのオーダリング無し。リーチ状態のみ後方枝刈。 完全解析ができそうか確認してました。 全42手でルートから30手くらい置換表適用すると、序盤はかなり良いペースで探索 してくれますが、数時間で置換表パンク。置換表を20手くらいまでにとどめると、びっくり するほど速度低下。手順の前後で簡単に同形が生じるので、置換表が肝なのは確か。 というか、手順前後の同形を排除する仕組みが作れればメモリ節約可能になる。 けど、それを一般化した処理が置換表なので、全てカバーしなくても3手以内くらいで 排除すれば状況はかなり改善するかも知れない。 あと、パンク前も探索が進むにつれて徐々にnpsが低下していきます。原因不明。 書きながら気づいたのですが、置換表のハッシュ値はオセロのものを流用しています。 Connect4はビット数が少ないので、ハッシュ衝突が頻発して、格納効率が低下して 領域拡張が頻繁におきて、探索速度も落ちている可能性があります。 というわけで、現段階では置換表周りを工夫しないと完全解析は厳しそうです。 一方で、空26箇所くらいの終盤探索なら実用的な速度が出そうな感触です。 >>569の完全ソルバは、評価値表示機能があるけど、あの表示の仕方だと、証明数 探索みたいな手法を使っているのかなぁ。ほぼノータイムで最善手のみ着手してくる ので。完全ソルバの出現で終わっちゃってるゲームなんでしょうね。 で、このゲームってMCTSの練習台にちょうど良いのではないか?とふと思いついて しまいまして・・・。更に脱線しようかなと思います。Playout関数は作りましたが、ツリー 展開の仕方に疑問があり、まだ調べ中です。 http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/606
609: 310 [sage] 2016/10/15(土) 13:58:53.52 ID:iZ3eY/zy NPS低下問題はやはりハッシュ衝突のようで、ちょこっと直したら解消しました。 Connect4は手順前後しても同じ形になる事が多いゲーム(DAG問題多発)なので、 置換表を上手く使わないと、7兆種類あると言われている盤面を何度も重複探索して しまう事になります。が、置換表探索と登録のオーバーヘッドは結構大きく、メモリ パンクでスワップ多発の問題も起きます。 今の設定だと残り27手探索くらいなら難しい問題で1分程度で解けそうです。 NPSは20メガくらい。が、メモリパンクや重複探索の問題があるので、その速度を もとに完全解析に要する期間を推計するのは無理っぽい感じです。 というわけで、完全解析はこの辺にして、MCTSの方に行きます。 http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/609
611: 310 [sage] 2016/10/15(土) 21:29:59.48 ID:iZ3eY/zy MCTS(UCT)多分できました。STL様様です。 探索時間1秒で40万プレイアウト。 playout部をnegamax的に書いたので、ちょっと混乱しました。 まだ終局判定とかいい加減で、引分近辺で落ちる可能性あります。 オセロでも1秒で10万プレイアウト以上いけるんじゃないかなぁ。 探索時間固定できるのでオセロ序盤〜中盤で使えるかも。 >>535さんのプログラムはもうダウンロードできないですね。 http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/611
615: 310 [sage] 2016/10/16(日) 01:32:06.03 ID:KTdXBWLt プレイアウトなので1局です。色々ごにょごにょはありますが、ランダム着手で、 とりあえず勝負がつくまで打ちます。これで1プレイアウト。 速度が出るのはビットマップとBMI命令などのX64命令を使ってるからだと思います。 が、Perfect Solverに先手で勝てません(汗。5手目に必ず間違えます。 評価値を眺めても、当たり前のように、正解(真ん中列)が最下位になります。 パラメータをそこそこいじってみましたが、状況は変わらないです。 一本道には弱いって事かなぁ。 とはいえ、自分がやると、さっくりと負けてしまいます(汗 http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/615
616: 310 [sage] 2016/10/16(日) 13:25:18.14 ID:KTdXBWLt mobility周りにバグがあって直したところ、1秒読みでPerfect Solverに先手で勝ちました。 昨夜は120秒読みでも同じ手順で負けていました。 とはいえ、乱数が絡むので引き分ける事もあります。 まだ若干問題があります。1本道を交互に着手していくと自動的に勝ちが確定する盤面 なのに、評価が引き分けになっています。プレイアウトの終局判定で何かの条件が抜け ていて、勝ちと判定されていない感じです。 直したらまた勝てなくなったりして(汗 C++の診断ツールを今回初めて使ってみました。 関数ごとの使用時間がわかるようで、速度アップの検討に重宝します。 が、どうもUCB1の計算で使うsqrtとlogを使ってる箇所でCPUを9割くらい使っている 感じです。見方が良くわからないけど、多分そういう状況。速度アップ難しい。 http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/616
618: 310 [sage] 2016/10/16(日) 17:19:15.26 ID:KTdXBWLt どもです。評価値問題は治りました。 乱数じゃなくて、ある手順で引き分けな手を選んでしまう事が判明したので探索時間 を延ばしてみたら、逆に序盤で負け手順を選んでしまうようになりました(汗。 ツリー部の地平線臭い感じなのかなぁ。 というわけで、たまたま選んだ1秒が良かっただけかも知れませんorz MCTSも理論的には探索回数を∞にすると、最善手を必ず導き出す事は保証されて いるらしいのですが、中途半端な回数の時は保証されていないんですよね。 http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/618
620: 310 [sage] 2016/10/16(日) 22:45:31.89 ID:KTdXBWLt なんか、デバッグ報告みたいな状況になってすみません。 地平線臭い状況を調べていたら、負ける寸前なのに評価値が勝ちになってます。 つまり負けを認識していない。 着手を間違えるのはこの辺も原因かも知れません。 ぱっと思いつく原因が見当たらないので、しばし長考します。 http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/620
622: 310 [sage] 2016/10/18(火) 00:57:04.06 ID:k8M1GDOc 色々直して、ほぼバグは取れたと思います。 で・・・強くなったはずですが・・・PerfectSolverに先手で勝てなくなりました。 かつて勝てたのはたまたま上手くバグっていたという事みたいです。 1秒設定は途中で間違えて引き分け、10秒設定は初手で負け確定(真ん中以外に着手)。 1秒設定で初手真ん中を選択するのはたまたまかもしれません。 初手だけ調べると150万プレイアウトくらいで間違えはじめ、15億プレイアウトまで確認 しましたが、雰囲気的には当分正しい答えに戻ってこないようです。 評価値の推移を見ると、一本道問題に引っかかっているように見えます。 DAG問題がやっぱり気になるので、ハッシュと組み合わせて合流できるようにしてみます。 多少は改善するかも知れないし、逆にもっと早く真ん中から外れるかも。 http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/622
メモ帳
(0/65535文字)
上
下
前
次
1-
新
書
関
写
板
覧
索
設
栞
歴
スレ情報
赤レス抽出
画像レス抽出
歴の未読スレ
Google検索
Wikipedia
ぬこの手
ぬこTOP
0.034s