[過去ログ]
【オセロ,将棋】ボードゲーム【囲碁,War】 (1002レス)
【オセロ,将棋】ボードゲーム【囲碁,War】 http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/
上
下
前
次
1-
新
通常表示
512バイト分割
レス栞
このスレッドは過去ログ倉庫に格納されています。
次スレ検索
歴削→次スレ
栞削→次スレ
過去ログメニュー
787: 310 [sage] 2017/04/05(水) 01:14:25.59 ID:4SaLkpgr >>786 Zebraが間違えたのは14手目のB5だった模様。ここで引き分け手順から外れてます。 定石無しにしようと書いておきながら、少なくとも引分とわかっている盤面情報を活用 して、探索の省略ができないかと、あちこちに組み込んでみましたが、効果は不明。 効果がわからないというより、毎晩こつこつと評価関数のエポック数を稼いでいたところ、 どうも過学習に近い状況に陥っているみたいで、手の選択が変わってきて、むしろ、 どんどん弱くなりつつあります。むむむ。 一旦変な手を選んでしまうと、Zebraにしっぺ返しを食らって、せっかく読み貯めた プレイアウトの大半がボツになり、短いツリーで手を選択するうちに、どんどん 間違った手を打っていく模様。結果的に勝った時は、ツリーがどんどん伸びて行く のと対照的です。 で、結局、評価関数の良し悪しという話に逆戻りorz 評価関数から脱却するためにMCTS始めた頃が懐かしい・・・ http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/787
788: 535 [sage] 2017/04/05(水) 23:08:13.71 ID:laANBz/U 最新の対戦結果です。 LV2に白番で勝ち越したようです。 しかし、LV1に黒番で負け越している。 あとLV1とLV3で白番のほうが勝率がいいのが謎。 真面目に長連対策してないのが弱点になっているのだろうか? それにしてもLV3強すぎる。 LV1との対戦も100戦やる予定でしたが途中で固まってしまったようです。 100局目 黒(airandom.dll)の勝利回数: 2 白(ai-lv3.dll)の勝利回数: 98 100局目 黒(ai-lv3.dll)の勝利回数: 92 白(airandom.dll)の勝利回数: 8 100局目 黒(airandom.dll)の勝利回数: 77 白(ai-lv2.dll)の勝利回数: 23 100局目 黒(ai-lv2.dll)の勝利回数: 45 白(airandom.dll)の勝利回数: 55 86局目 黒(airandom.dll)の勝利回数: 41 白(ai-lv1.dll)の勝利回数: 45 83局目 黒(ai-lv1.dll)の勝利回数: 7 白(airandom.dll)の勝利回数: 76 http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/788
789: 名前は開発中のものです。 [sage] 2017/04/08(土) 13:24:07.33 ID:mnzcHtDh 2003年に立てられたスレが最近になって動いてる…w がんばってくださいな。 http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/789
790: 310 [sage] 2017/04/08(土) 17:26:32.31 ID:cxbXAKoL 色々グチャグチャと改良(改悪)してましたが、一旦整理して、結局かなりシンプルな 形に落ち着きました。定石も無しにしましたので、2手目以後は考えます。プレイアウト に時間がかかるので、序盤は考える時間が長すぎです。点数ベースの評価関数を弄り 倒して勝率っぽい数字をでっちあげる事で、勝率の評価関数を使わなくなりました。 今のところ対Zebraは勝ったり負けたりで、強さ的には匹敵するところまで行けたかなと。 両者定石無しなので、純粋にAI部の強さ比較という事で良いのかなぁと自負。 たまにはAI白番(Zebra黒)の棋譜を。自作AIの+2勝ちです。 F5 D6 C4 D3 C3 F4 C5 B3 C2 E3 D2 C6 B4 A3 G4 F3 E6 F7 B5 A4 A6 B6 G3 F6 E7 F8 D7 C7 G6 H5 D8 C1 H6 H4 E8 C8 G5 H7 B1 A1 B2 E2 A2 H3 F1 D1 G7 H8 G8 A5 A7 F2 E1 G1 H1 B7 G2 H2 B8 A8 MCTSじゃあまり強くならないと思っていたのが、ここまで来れて正直本人がびっくり。 アルファ碁のNature論文のお蔭です。 次ステップで強化学習とか考えていたけど、まだ何からどうすれば良いのかわからない(汗 http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/790
791: 535 [sage] 2017/04/09(日) 05:10:12.89 ID:h/eXLfOt 相手に守りの手を強要させることが出来る有利な状態をいかに保ってゲームを進めるか。 終盤の要になりそうです。 http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/791
792: 310 [sage] 2017/04/09(日) 20:11:13.36 ID:3mOyIMJx 評価関数の評価値計算でmin-Maxの時にやっていたのに、今回はやっていなかった 手抜き箇所を修正し、速度アップを図りました。 プレイアウトの速度が劇的に速くなりました。 最低でも10万プレイアウト貯め無いと、変な答えを返す(だろう)という事で、最大試行 回数の手が最低プレイアウト数を超えていない時は探索延長していました。そのため 序盤で探索延長頻発していましたが、今回の改造でほぼ延長無しになりました。 あと、評価関数のステージ分割を細かくしまして、再計算を開始。 1手20秒設定でやっていますが(他にバックグラウンド探索あり)、10秒でも実用になるかなぁ。 MCTSなオセロとしては、ある程度できちゃった気がする。 http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/792
793: 535 [sage] 2017/04/10(月) 22:56:16.99 ID:Sai+9C2+ もしかして>>310さんのAIは世界最強クラスってことですか? 凄すぎ… http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/793
794: 535 [sage] 2017/04/10(月) 23:19:01.03 ID:Sai+9C2+ 完成したら論文書いてwebで公開してくださいw おねがいしますw http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/794
795: 310 [sage] 2017/04/11(火) 07:59:39.45 ID:KmgeOKfx >>793 いや・・・それはないです。 オセロの場合、定石DBの学習が強さに直結するので、定石DBを持っていないAIは かなり不利というか、対戦したら勝ち目ありません。何回も対戦するうちに苦手な定石 に誘導されちゃうので、勝ち目なしは確信しています。 また、アルゴリズムの優越比較という意味で、Zebraの定石DBも無しにしましたが、 Zebraの中盤も一昔前のレベルで、決して強くはないという評価をWEBで見た事が あります。今回Zebraを使用したのは、対戦中に学習モードに切り替える事でどこで 間違えたかがわかりやすいからです。Edaxとはまだ対戦させません。 ただ、個人的に思い込みたいレベルでいうなら、MCTS系のオセロAIでは最強クラス なんじゃないかなぁと(願望)。なにせ、いまどきオセロAIを開発している人はいないし、 ましてモンテカルロ系で試そうなんて人もいなさそうですから。言ったもの勝ち(汗 アルファ碁の論文のDeepでNeural networkではない部分を適用する事で、min-Maxで なければ存在価値がないところまで行き着いていたオセロAIでもMCTSで結構強くなれる 事が証明できたかなぁと。本当にアルファ碁様様です。 ブログ作って解説でも作ろうかと準備していましたが、試しに開設したブログサービスでは アップロードができなかったので、一旦閉鎖しました。どこか良いところないかな。 http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/795
796: 535 [sage] 2017/04/13(木) 22:33:44.03 ID:vVAZxoH8 いろいろ試してみてるけどなんか勝利手順DBを充実させるのが一番手っ取り早く強くなる気がする。 いま12万局分棋譜あるけど100万局くらいまで増やしてみるか… もっと計算リソースが欲しい。 http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/796
797: 310 [sage] 2017/04/18(火) 01:24:07.08 ID:Ohai0OaC 評価関数のエポックを更に進めたら180エポック近辺から勝てなくなってきました。 もしかしてたまたま間違ったところが、zebraの弱点をついていたのかも知れないし、 評価関数の値にメリハリがついてきて、逆に見落としが起きやすくなったのかも 知れないし。過学習かも知れないし。 評価関数をブラッシュアップするには、負け手順を棋譜化して、学習データに投入 しなきゃならん。 ところが、負け確定後に例の自爆モードが作動してしまいます。棋譜として使えるよう にするために、ソルバーを復活させました。ついでに色々やってたら、見なかった事 にしていたバグもとれました。ついでだからと偶数理論を実装したのですが、かえって 遅くなってしまった。他の人はどういう実装しているのだろう。 今の速度だと35手目から読み切らないといけない。今の速度だと時間の予測が難し いというか、軽く1時間はかかりそう。 http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/797
798: 535 [sage] 2017/04/19(水) 21:59:17.68 ID:WjbK3YLE Ponanzaがディープラーニング取り込みに成功したとかなんとか。 ハードもものすごいものを用意するそうですね。 http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/798
799: 535 [sage] 2017/04/21(金) 20:55:54.67 ID:ZLYvyeQY 大分勝率上がってきた。 思考時間長いから数こなせないのが厳しいですね。 25局目 黒(airandom.dll)の勝利回数: 8 白(ai-lv3.dll)の勝利回数: 17 http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/799
800: 535 [sage] 2017/04/21(金) 22:05:48.97 ID:ZLYvyeQY やっぱディープラーニング憧れるなぁ。 俺のAIにもブレークスルーを起こしてくれw http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/800
801: 310 [sage] 2017/04/23(日) 20:02:43.30 ID:Kquj3Rxt 色々係数調整したらめっちゃ弱くなって焦ってあちこちいじってました。 最初の調整の方向が逆だった模様で、反対に振ったら少し良くなりました。 過学習っぽい問題を何とかしたくて、ポリシーネットが作れないか、もう一度挑戦してます。 線形Softmaxでまた色々やっていたのですが、今まで上手く行かなかった理由が判明。 特徴を圧縮するのに…反転させたり回転させたりしていたので、盤面位置がわからなく なった投入データに対して、盤面との対応ができてる教師データと整合性が取れなく なっていたと…いまさら気づきまして…学習部分を全面的に作り直しとなっています。 なんて馬鹿な事をしていたんでしょう(涙 つまり、これが原因だったら、MLPも使えるかもって事です。 流石にDCNNは関係ないですが。 http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/801
802: 535 [sage] 2017/04/24(月) 23:38:10.10 ID:Jt3D6fnV もう一回connect4に立ち返ってみるかな… 気分を変える意味でも… http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/802
803: 535 [sage] 2017/04/25(火) 21:31:44.16 ID:I7r6uvd5 あ〜なんか新しいことすんの億劫だな。 プログラミングは少し充電期間をおいて本でも読もうかな。 http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/803
804: 名前は開発中のものです。 [sage] 2017/04/27(木) 01:15:37.14 ID:KUFXWb0v 中学生が羽生さんに勝っちゃったとかでえらい盛り上がってるね http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/804
805: 310 [sage] 2017/04/27(木) 22:32:29.06 ID:gagL5fDM 億劫な時ありますね。アイデアが枯渇した時とか、陥りがちです。 しばらく放置するとアイデアが出て来たりします。 さて、線形Softmaxなポリシーネットですが、色々やって何とか計算開始しました。 回転同形の処理を真面目にやったらメモリーパンクでスワップしてしまってボツ。 仕方がないので、エポック事に回転同形をランダムに作る事に。 計算にものすごい時間がかかるので、ミニバッチサイズをミニとはとても言えない ほどでかくして時短。お蔭で6時間越え→50分程度になりました。もっとでかくすると 更に時短できるかな。 序盤の盤面は重複が多く、学習に悪影響がありそうなので、%指定してカット。 (そのうち、同一盤面同一次着手は1件に集約しようかと思っています。) こんな感じで現在2エポック目ですが、57%くらいの一致率という極めて優秀な成果が 出てきています。 それでも着手不能箇所が確率1位になっちゃったりするので、使用時に着手可能位置 のみ計算するようにしました。これで多少は一致率が上がるはず。 http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/805
806: 310 [sage] 2017/04/27(木) 22:33:06.57 ID:gagL5fDM 藤井4段凄いですね。 コンピュータ将棋で鍛えたからかな。 なんか新しい手を打ってるみたいですね。 http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/806
807: 名前は開発中のものです。 [sage] 2017/04/28(金) 07:46:25.71 ID:cnKbVTYz ニュースを見て藤井猛が勝利したのかと 勘違いした俺… ニュースにならねえよ! http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/807
808: 535 [sage] 2017/04/29(土) 00:08:17.53 ID:knMl9lYg ニューラルネットワーク自作入門という本を買ってきました。 平易に書こうとしてるのが伝わってくる本ですね。 平易に書くの最近の流行りなんですかね? http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/808
809: 310 [sage] 2017/05/03(水) 15:03:32.93 ID:v36x8qrF 最近はもっぱらポリシーとバリューの両評価関数のテストです。 ポリシーの方は線形ソフトマックスで大丈夫そう。大体50%の正答率になります。 MLP版もコーディングはしてますが、まだテストまで至っていません。 バリューの方は、ステージ分割なしのMLP版を試してます。 計算に時間がかかりすぎて調整が進みません(汗 頭の片隅には、いつかはDCNNというのが残っています。 以前やった時に、畳み込みフィルタ演算の展開形を考えた事あります。 その時は、汎用性が無いという理由で、あまり乗り気じゃなかったのですが、 今となっては、そのまま進めればよかったかなと思う次第。 http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/809
810: 名前は開発中のものです。 [sage] 2017/05/04(木) 17:16:11.41 ID:Hvuj7SvG pona負けたとかなんとか http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/810
811: 310 [sage] 2017/05/05(金) 01:52:31.91 ID:Orwfb9MI 世界コンピュータ将棋選手権ですね。 8勝1敗同率で、elmoに直接対決で負けた関係で予選2位通過みたいですね。 将棋は電王戦くらいしか見てなかったので、マシン制限があると思ったら、 こっちは凄いですね。CPU1092(Xeon)にGPU128基ですか…。 やっぱディープラーニングすると、それなりのマシンパワーがいるのよね。 しかも最速マシンは20億NPSとか言っているみたい(笑うしかない)。 http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/811
812: 310 [sage] 2017/05/05(金) 02:46:05.76 ID:Orwfb9MI で、Ponanza Chainerに対する半可通っぽい疑問。 アピール文章読んだけど、ディープラーニングは評価関数ではなく、 ポリシーネットに相当する次の1手導出に使われているっぽい。 何故バリューじゃなくてポリシーなのか? で、αβ系探索でポリシーとなるとオーダリングに使うくらいしか思いつかない。 将棋ってオーダリングに良いヒューリスティックスないのかな? YBWCのPV決定だと縦に並んじゃうから、並列にする意味がない。 確率の高い手は次の段でPVの数を増やしたりするのかな? http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/812
813: 名前は開発中のものです。 [sage] 2017/05/05(金) 08:17:59.66 ID:cViTmSg9 将棋(やチェス)だとYBWCよりもLazy SMPが流行ってるみたいですね Ponanza Chainerはそれのクラスタ版のeXtreme Lazy Smpらしいですが。 http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/813
814: 310 [sage] 2017/05/05(金) 08:31:32.47 ID:Orwfb9MI >>813 どうもです。早速見てみました。 自分のPCは2コアの擬似4コアなので恩恵なさそうです(汗 つか、並列化についてはPPLにお任せしちゃってるので、あまり要点が わかっていないかも。 しかし、GPS将棋のクラスタすげーと思っていた時代は、一瞬で過去の ものになってしまったのですねぇ。 http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/814
815: 310 [sage] 2017/05/05(金) 17:24:07.29 ID:Orwfb9MI elmo優勝でPonanzaが2位みたいですね。 なんか、将棋も強くなるスピードが尋常じゃない感じ。 目標設定して(前年比9割勝利とか)、マシンパワーとか確実性が ある所にも、資源を振り向けて達成しているみたいにも見えますが。 http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/815
816: 名前は開発中のものです。 [] 2017/05/05(金) 17:48:22.87 ID:hWowcZg5 ディープラーニングと将棋の相性が悪いてことだろうか? elmoとやらは既存アルゴリズムなんですよね? http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/816
メモ帳
(0/65535文字)
上
下
前
次
1-
新
書
関
写
板
覧
索
設
栞
歴
あと 186 レスあります
スレ情報
赤レス抽出
画像レス抽出
歴の未読スレ
Google検索
Wikipedia
ぬこの手
ぬこTOP
0.013s