[過去ログ]
【オセロ,将棋】ボードゲーム【囲碁,War】 (1002レス)
【オセロ,将棋】ボードゲーム【囲碁,War】 http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/
上
下
前
次
1-
新
通常表示
512バイト分割
レス栞
このスレッドは過去ログ倉庫に格納されています。
次スレ検索
歴削→次スレ
栞削→次スレ
過去ログメニュー
833: 535 [sage] 2017/05/25(木) 21:07:01.59 ID:nz71uY7p うあああああ、なんかおかしいと思ったらデータ読み込んでなかったw 全然変な手を打つと思ったらそういうことかーorz orz orz http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/833
834: 535 [sage] 2017/05/26(金) 21:03:34.78 ID:B39N4gaL バグが治ったらLV3にいい線まで迫ってきた凄い! 18局目 黒(airandom.dll)の勝利回数: 9 白(ai-lv3.dll)の勝利回数: 9 19局目 黒(ai-lv3.dll)の勝利回数: 12 白(airandom.dll)の勝利回数: 7 思考時間がめちゃくちゃ長いのが当面の課題ですね〜 http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/834
835: 535 [sage] 2017/05/27(土) 01:33:58.68 ID:vCz7BcHT 多分、あと二つくらい良い特徴量さえ見いだせればLV3に勝つる。 良い特徴量さえあれば! http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/835
836: 310 [sage] 2017/05/27(土) 20:17:57.81 ID:TGXtrM6M 強化学習に大きく方向転換。 最初、ポリシーネットを模して学習しようとしたけど、出力がソフトマックスの時 負け側の教師データをどうするのか不安があったので、まずは普通にQ学習で 勝率を学ぶ事にしました。 ざっと作ったところでデバッグに時間がかかりまして、ようやく多分ちゃんと学習して いるんじゃないかと思うところまで来ました。が、初期の学習をしないでランダム初期化 のまま開始してしまいましたので、学習はしているみたいだけど、実用レベルの学習 をするまで、どれくら
いかかるのか、想像もつきません(汗 100回対戦して、1エポック学習するのに、大体8〜10分くらい。控えめに見て 1000万対戦としても、10万分。つまり2か月強必要です。アルファ碁は初期値を 学習した上で追加の強化学習が確か数千万対戦だから、年単位でも足りないかも(笑) 手を完全に固定(ランダム要素排除)した状態で学習により勝つ方向に遷移する事 は確認しましたが、最初の方をランダムにしたりε-greedyしたりして局面が偏らない ようにしてから、1万対戦しても勝率が良くなる気配が無いので、まだすごく不安です。
http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/836
837: 310 [sage] 2017/05/28(日) 21:36:00.20 ID:354vTA35 ちょっと学習データの保管期限長くしたら100ゲーム14分になった。 あと、テストゲームで動くはずのない側(学習していない方)の手が変わったので 変だなと確認したら、バグ発見。後手番になっても、先手のAIを使用していた(汗 数万ゲーム行っていたのに、また一から学習しなおし。 どうせ適当に構成しているので、少しネットワークを簡素にしてみるかな。 http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/837
838: 535 [sage] 2017/05/30(火) 22:08:02.05 ID:rOaQFKPq 囲連星における将棋で言うところの詰めろと必至を計算するルーチンが欲しい。 かなり切実に。 http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/838
839: 310 [sage] 2017/05/30(火) 23:20:25.76 ID:rROdfu2T バグ取りしながら、色々いじったら、バグとる前に別のバグを仕込んで・・・ と、長らくデバッグしてましたが、ようやくいじりたくなるところが収束し、バグが とれて、学習が進むようになりました。 100ゲームプレイして学習のサイクル1回が4分弱になりましたので、 結構気持ちが楽になりました。とりあえず1週間くらい学習させてみます。 一通りできたら、ポリシーの方にもトライしてみようと思います。 http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/839
840: 535 [sage] 2017/06/01(木) 22:33:27.70 ID:COhqrYJ6 棋譜から詰めろと必至になったパターンを抽出してDBを作ってみようかな。 http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/840
841: 535 [sage] 2017/06/02(金) 22:15:50.82 ID:uf6z9S1Y 簡単に2手連打で必勝形ならば詰めろ、ということで仮組みしてみた。 どんな感じかな。 今度AMDからでるスレッドリッパーが気になってしょうがない。 http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/841
842: 535 [sage] 2017/06/03(土) 00:14:49.53 ID:976t+GmL 詰めろルーチンなかなかいい感じ? 石の流れが良くなった気がする。 そろそろシチョウルーチンも書かないとだな。 http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/842
843: 535 [sage] 2017/06/03(土) 18:55:22.80 ID:976t+GmL 現在LV3と対戦中ですがなかなかいい感じです。 13局目 黒(airandom.dll)の勝利回数: 9 白(ai-lv3.dll)の勝利回数: 4 11局目 黒(ai-lv3.dll)の勝利回数: 9 白(airandom.dll)の勝利回数: 2 白番でもうちょっと勝ちたいですねぇ あと対戦にめちゃめちゃ時間かかるのがどうにも。 http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/843
844: 535 [sage] 2017/06/04(日) 20:33:26.28 ID:55DsrXcK 黒番対LV3大きく勝ち越せるかと思ったけど、その後追いつかれちゃってがっかりして対戦止めちゃいました。 もう一工夫必要ですね。 http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/844
845: 535 [sage] 2017/06/05(月) 00:12:02.90 ID:7uLLK55W 気を取り直してLV1,LV2と対戦中 なかなかいい感じ 19局目 黒(airandom.dll)の勝利回数: 19 白(ai-lv1.dll)の勝利回数: 0 17局目 黒(airandom.dll)の勝利回数: 16 白(ai-lv2.dll)の勝利回数: 1 http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/845
846: 535 [sage] 2017/06/05(月) 19:22:25.72 ID:7uLLK55W 引き続き対戦中 なかなかいい感じ 40局目 黒(airandom.dll)の勝利回数: 39 白(ai-lv1.dll)の勝利回数: 1 37局目 黒(airandom.dll)の勝利回数: 36 白(ai-lv2.dll)の勝利回数: 1 http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/846
847: 310 [sage] 2017/06/05(月) 19:52:31.59 ID:PVR4/NQn 強化学習にトライ中。 最初の勝敗をQ学習する方法は目に見えて学習できていそうだったのですが、 ネットワークが小さすぎたのか、比較的早い段階で飽和。ネットワークを深くして 再試行しようかと思ったのですが、せっかくなのでポリシーの学習にトライ。 しかし、Q学習と違って、学習が上手く進みません。 初期値問題かと思って、最初に教師あり学習をさせてみましたが、やはり勝率が 上がらないというか、30%近辺に落ち込んだまま浮かんでも50%くらいにしか ならない感じ。このまま
続けたら、どこかで戻ってくるのか。100対局の強化学習 で30分かかるので、どうしようかと。 Q学習の方は、比較的簡単に、対象のAIに勝てるようになっていて、世代の追加が 順調に進んでいました。ポリシーだと何故ダメなのか考えれば考えるほど、頭が 混乱してます。 http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/847
848: 310 [sage] 2017/06/06(火) 20:05:14.75 ID:6owNcmqA バグ見つけた。簡単かつ破壊力があるやつ。 教師あり学習の一致率が試行回数少ないのに85%とかになっていて おかしいとは思っていたんだけど。教師付学習も強化学習も同じバグ。 自分の盤面のところに、次の着手(要するに教師データ)を入れてた。 というわけで、教師付学習からやり直しています。 雰囲気的には、今のネットワークで一致率50%近くまで行きそうです。 あと、GitHUBでAlpha Goクローンを作っているプロジェクトを発見。 解説ページで評価関数部分を結構細かく解説し
てくれています。 そこで、ポリシーネットの負けた側について「学習率をマイナス」にして 学習すると書かれていて(@o@)。こんなスマートな方法があったとは やられました。 http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/848
849: 535 [sage] 2017/06/06(火) 20:11:39.11 ID:7GjyRXFQ >GitHUBでAlpha Goクローンを作っているプロジェクトを発見。 URLくだしあ http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/849
850: 535 [sage] 2017/06/06(火) 20:40:01.38 ID:7GjyRXFQ https://github.com/Rochester-NRT/RocAlphaGo これかな。 http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/850
851: 310 [sage] 2017/06/06(火) 20:47:41.56 ID:6owNcmqA それだす。 一致率は45%で頭打ち。 時間かけずに一致率上げる工夫方面に転進します。 http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/851
852: 535 [sage] 2017/06/06(火) 21:12:36.87 ID:7GjyRXFQ >>851 ありがとうございます。 LV1とLV2,ホントは100戦づつしたかったけど時間かかりすぎるから止めました。 でもまあ手ごたえありの結果ですねぇ。 LV1とLV2は卒業といってもいいかも。 54局目 黒(airandom.dll)の勝利回数: 51 白(ai-lv1.dll)の勝利回数: 3 60局目 黒(airandom.dll)の勝利回数: 58 白(ai-lv2.dll)の勝利回数: 2 http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/852
853: 535 [sage] 2017/06/09(金) 22:02:57.35 ID:N9z2bSO/ 黒番対LV3で難解なコウ争いの末、辛くも勝利! 地力がついてきた! それにしてもLV3の粘りには驚かされますね。 (;SZ[19] ;B[jj];W[ji];B[ki];W[ik];B[ii];W[jl];B[jh];W[hi] ;B[hh];W[gh];B[kk];W[gg];B[jg];W[kf];B[jf];W[je] ;B[ie];W[hj];B[id];W[hg];B[ig];W[ih];B[hf];W[ge] ;B[hh];W[ij];B[ic];W[ih];B[ke];W[ji];B[lf];W[kl] ;B[kg];W[jk];B[fg];W[lm];B[mn];W[kj];B[gf];W[lk] ;B[jd];W[mk];B[mf];W[ml];B[nm];W[nf];B[if];W[of] ;B[kf]) http://mevius.5ch.net/test/read.cgi/g
amedev/1057763418/853
854: 535 [sage] 2017/06/09(金) 23:50:44.20 ID:N9z2bSO/ シチョウルーチン組んでたら根本的なルール部分にバグ発見。 出現頻度は低い奴だけどまだこんなバグ残ってんのかとビビった。 http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/854
855: 310 [sage] 2017/06/10(土) 16:27:27.71 ID:PCeXyVVE こちらはかなり迷走中。精度を求めるとCNN時間がかかりすぎ。 やっぱり、Buroさんの評価関数の特徴を入力にして、畳み込み演算を使用しない方向で 進めるのが吉ではないかと思い始めています。最終的にオセロAIの中で実用的な速度で 答えが出せるものでないと使い物にならないので。 Buroさん特徴型でポリシーが作れるか。 バリューに相当する勝率ネットワークを作った時、その勝率が使い物になるのか? それらを強化学習で強化できるのか。 この辺に目標を切り替えます。 ちなみに、今
のはBuroさん型評価関数の、評価値(終局時の石数差の予想)を、適当な 線形変換で−1〜1の勝敗の確率っぽい数字とみなして使用していますので、そこの 精度はよくなるのではないかと期待。 http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/855
856: 535 [sage] 2017/06/10(土) 23:26:39.00 ID:L+AkmAT7 思考時間短縮策を考えているんですが、 まだ強さが十分じゃないのに思考時間短縮を考えるのは悪手な気もする。 でも思考時間かかりすぎると統計とれないし悩ましい。 http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/856
857: 535 [sage] 2017/06/11(日) 21:28:22.80 ID:SJZps56X やっぱハードを強化するしか… AMDのスレッドリッパーあたり行っちゃうか? http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/857
858: 310 [sage] 2017/06/11(日) 23:00:35.72 ID:8gFXyRd+ Buroさん特徴型で2層パーセプトロン型のポリシー作って学習開始。 1エポック目でテストデータに対して正答率48%超え(汗 当然ながらスピードも速い。 やっぱBuroさん凄い。 http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/858
859: 535 [sage] 2017/06/12(月) 20:43:30.74 ID:b/m4vK+x 序盤、いままでDBから一番勝利数の高い手を選んで打ってたけど、 それだと布石が限られちゃうからランダムで第二候補も打つようにしたら 若干勝率下がったような気がする。 まあしょうがないか。 http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/859
860: 535 [sage] 2017/06/13(火) 21:33:01.28 ID:Vwv80HwJ 囲碁プログラムなんかだとKGS行くとモンテカルロ350プレイアウト位でも結構強いプログラムあるんだけど、 なんでそんな少ない回数で強さを出せるのか謎すぎる。 http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/860
861: 535 [sage] 2017/06/17(土) 23:55:21.58 ID:RoY4moNt あ〜アイディア湧かね〜 とりあえず LV3 vs LV3の棋譜取 回せるだけ回すか。 スレッドリッパーがあれば今の4倍速で棋譜収集できそうだが… http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/861
862: 535 [sage] 2017/06/21(水) 20:57:42.26 ID:jKeRi7uh プロファイル取ろうとするとメッチャ時間かかる。 マルチスレッドだと特に時間かかるんだろうか? プロファイル無しなら2分もかからんのにもう30分くらい走らせてる気がする。 http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/862
メモ帳
(0/65535文字)
上
下
前
次
1-
新
書
関
写
板
覧
索
設
栞
歴
あと 140 レスあります
スレ情報
赤レス抽出
画像レス抽出
歴の未読スレ
Google検索
Wikipedia
ぬこの手
ぬこTOP
0.025s