[過去ログ]
【オセロ,将棋】ボードゲーム【囲碁,War】 (1002レス)
【オセロ,将棋】ボードゲーム【囲碁,War】 http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/
上
下
前次
1-
新
通常表示
512バイト分割
レス栞
抽出解除
レス栞
このスレッドは過去ログ倉庫に格納されています。
次スレ検索
歴削→次スレ
栞削→次スレ
過去ログメニュー
276: 名前は開発中のものです。 [] 2013/05/26(日) 02:43:56.90 ID:Px4RuB9Z >>273 サンクスです 確かに大駒中心のチェス側は、高い機動力を生かして序盤は優勢だけど、 終盤は取り合いになると、守備範囲が狭いチェス側は守りきれなくて死ぬ ある程度、駒をとってから打てるようになるわけね・・・ 将棋側はチェス駒を打つわけだけど、チェス駒はナイト以外は向きが分かりにくいから、相手に使用されると嫌だな http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/276
339: 310 [sage] 2015/10/17(土) 09:29:41.90 ID:uZH1KzRS 最終2手高速化したあたりから、ノード数が過小になっていたので、それを直しました。 自分のと比較すればよいかと思って放置していましたが、そろそろちゃんと比較しようかなと。 結果、探索ノードが思っていた以上に多かった事、そしてNPSは9〜11K出てるので、 NPSを落としてノード削減する余地があるという結果に。 あまりテストしていなかったFFO#41と42ではzebra方式と呼んでいた(後述)方法が、自分の 中では最速で、MTD(f)の結果があまり思わしくない事も。MTD(f)の#40は初期条件が良か ったからの模様。 ここらへんでもう一度、zebraサイトのFFOテストページにあるcomplete logなるものを見て みると、全然違う。バージョン違いなのか、やってる事が全く違う。 浅い探索をしてfを決めてNull window search(正確には幅3なので正解が判別できる) を繰り返しているように見える。けど、ログ上に%が出てきて、98%、99%、%無しみたい になっているので、何らかの方法で前向き枝刈しながら、評価値を求めていき、最後まで 幅3の探索しかしていないのかな。こういうのをPVSって言うのかな。 浅い読みとか、前向き枝刈とか絡んでくるんなら、中盤探索をやってから戻ってきた方が よいのかな。。 http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/339
580: 310 [sage] 2016/10/02(日) 20:32:53.90 ID:n86BxDyi >>578 αβ刈りしているでしょ。 最初に読んだ手でα値が最高値になる。 次の手を1段読んだ時、それを超える手が出ないので、全ての手がβカットの対象となる。 本当に一番良い手を選べるんなら、そもそも読む必要がないけど、何らかのヒューリスティック な基準でよさそうな手から読むと、それが正解だった時に、βカットが大量発生して、実際に 読む事になるノード数が激減する。 αβ刈りみたいな方法は、後ろ向き枝刈と言って、完全読み切りに必要が無い手を読まずに 済ます手法。 http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/580
669: 535 [sage] 2016/11/26(土) 14:07:56.90 ID:3TEfCPcy LV2が思考速くて強いからってLV2の棋譜大量に集めたら学習が偏りそう? http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/669
712: 310 [sage] 2017/01/31(火) 01:06:15.90 ID:tF0OU/RM >>709 ドカンとは強くならないけど、やっている事から推測すると遺伝的アルゴリズムが 合ってそうな気がします。茨の道ですが(汗 >>711 いまどきはメモリが大きいので、全部読み込んで一括処理とか、思いのほか可能ですね。 http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/712
714: 310 [sage] 2017/02/01(水) 15:57:52.90 ID:DrzIg7bz ひょんな事から学習できました。デバッグ用に学習データを減らしてテストをしようとしたら 学習できてしまいまして。件数を増やすとダメになる模様。 これは仮説ですが、多種多様な棋譜を学習させると、ネットワークの自由度が不足して、 ウェイト更新が相互に打ち消し合った結果、ウエイトがゼロ(勾配消失)に陥ってしまうと。 学習に失敗した時は、大半のテストの結果が、全て同じ確率(softmaxのため)となってい ます。中身は見ていませんが、softmax関数を通す前はオールゼロとなっている事が十分 に想像できます。 今から思うと、NNで評価関数を作ろうとして失敗していた時も、同じ状態だったのかなと。 学習データを減らすと精度が落ちますので、ネットワークをより複雑かつ大規模にしない といけないのかなぁと。結局、同じ問題(ネットワークを大規模化しなきゃいけないけど、 自前のパソコンでは計算が厳しい上に、結果を使用する方もタイムクリティカルなので あまりややこしくしたくない)の周りをグルグルしはじめてしまいました(汗 http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/714
845: 535 [sage] 2017/06/05(月) 00:12:02.90 ID:7uLLK55W 気を取り直してLV1,LV2と対戦中 なかなかいい感じ 19局目 黒(airandom.dll)の勝利回数: 19 白(ai-lv1.dll)の勝利回数: 0 17局目 黒(airandom.dll)の勝利回数: 16 白(ai-lv2.dll)の勝利回数: 1 http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/845
977: 310 [sage] 2017/10/05(木) 22:33:23.90 ID:sIPpafz3 ポリシーの強化学習、遅々として進んでいます(汗 時々、テストでMCTS動かしてポリシーの学習値を見ているのですが、 学習対象の全48手のうち、後ろ12手分くらい、それっぽく濃淡がついてきてます。 このまま続けたら、もっと前の方まで学習してくれると期待しているのですが、ここ からが分岐が多い箇所なので、どれくらい時間がかかるか想像がつかない。 で、ポリシーの強化学習の結果を使って、バリューの方も学習させていたのですが、 やはり無理がある事に思い至りました。バリューはバリューで別途強化学習をさせ ないといけない模様。どちらかというとバリューの方が大事なので、このままポリシー の学習を続けるか、一旦棚上げしてバリューの方に乗り換えるか、悩み中。 学習中のポリシーをMCTSに組み込んだところ、速度低下が著しい。メモリーのランダム アクセスが原因だと思う。速度アップネタをいくつか模索してみたいと思いますが、 変更が重いので、いつやるかこちらも悩み中。 http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/977
メモ帳
(0/65535文字)
上
下
前次
1-
新
書
関
写
板
覧
索
設
栞
歴
スレ情報
赤レス抽出
画像レス抽出
歴の未読スレ
AAサムネイル
Google検索
Wikipedia
ぬこの手
ぬこTOP
0.028s