【オセロ,将棋】ボードゲーム【囲碁,War】

[過去ﾛｸﾞ] 【オセロ,将棋】ボードゲーム【囲碁,War】 (1002ﾚｽ)
上下前次 1-新

このｽﾚｯﾄﾞは過去ﾛｸﾞ倉庫に格納されています｡
次ｽﾚ検索歴削→次ｽﾚ栞削→次ｽﾚ過去ﾛｸﾞﾒﾆｭｰ

822: 535 2017/05/08(月)22:06 ID:bLY5QORw(1) AAS
ディープラーニングやり直してみました。
与えられた局面の勝率を学習させて、一手読みで打たせてみました。
局面が均衡しているときは結構いい手を返すみたいですが、
不利に傾くと全然おかしい手を打ち始めます。
学習させた棋譜に偏りがあるんだろうか？
どちらかに不利に傾いた局面も学習させるべき？

823: 310 2017/05/08(月)23:27 ID:Byk3wJkT(1) AAS
悩ましいところですね。偏った棋譜を学習させるべきか、否か。

相手も弱いから、偏った棋譜になるわけで、そういう時にも問題が起きないように
探索と組み合わせるわけで。そう考えたら、そのままで良いのかも知れないし、
やってみないとわからないかも。自分的には、MCTSにおいてモンテカルロの
問題（隘路の騙し構造）に対して、先に避けるために、選択肢を偏らせるモノだと
認識していますので、拮抗している時に正しい手を返せばよいかと思っています。

自分は、Buroさんの特徴量をベースにしたMLPで評価関数作っているのだけど、
傾向としては線形回帰と変わらない印象です。与えている元データの偏りなのか、
それとも特徴量の選択の問題なのか、悩み中です。DCNNで特徴量抽出まで
やらせたいと、をもう一度試そうかなと言う機運になってます。

ただ、頭の中に、ワンチップマイコンで学習外だしというのがチラついていまして、
そこに入り込むと数か月、下手したら半年はとられるなぁと悶々中。

そうそう。アルファ碁のバリューネットの勝率ですが、割引率を考えたら…
という点に思い至りまして。普通勝率の評価関数はロクなもんじゃないのですが、
強化学習とセットなら、ありかもとちょっと思っています。

824: 310 2017/05/15(月)09:41 ID:hagdu+z8(1) AAS
オライリーさんのところのディープラーニング本（Pythonで学ぶ奴）を読んでみました。
自分で実装する人には、なかなか良いです。Python知らないですが、説明だけで結構
おなか一杯になります。

オライリー本で、畳み込み演算の実装（行列に落とし込む）の良い方法がわかりました。
自分が以前やって放置した展開形よりもっと良い方法があるんですね。ちと畳み込む気
が湧いてきました。

現在MLP版のポリシーネットを学習させていますが、テストデータに対して６０％越え
まで来ました。一方で入力データサイズが８９万（特徴）×１６万（ミニｗバッチ）とか
わけわからん事になっていて、もう畳み込んでも処理量大差ないんじゃないかと思って
いたところですので、学習限界が見えたら、畳み込みに行ってみようかと思います。

あと、やっぱり強化学習ですね。既存データで学習していても埒があかない気が強くして
きました。

825(1): 535 2017/05/15(月)22:23 ID:1z5ugcc4(1) AAS
ディープラーニング黒石を1、空点を0、白石を-1を入力として学習させたけど、
黒石かそうでないかの01データと空点かそうでないかの01データと白石かそうでないかの01のデータ
と３つに分けて食わせたほうがいいんだろうか？

826(1): 310 2017/05/16(火)09:54 ID:Vk+2t4O7(1) AAS
>>825
問答無用で後者です。

827: 535 2017/05/16(火)21:15 ID:3NTvf1qj(1) AAS
>>826
うーんそうなんですか。なんかそんな気はしましたが。。。
まあぼちぼちやりなおしてみます。
ありがとうございます。

828: 535 2017/05/17(水)22:57 ID:2rHwBE7R(1) AAS
今すごくいい勝ち方した。
必勝形を意識した連続攻撃。
こういうのが毎回打てればなぁ。

(;SZ[19]
;B[jj];W[ik];B[ij];W[hk];B[jk];W[gk];B[kl];W[hi]
;B[ji];W[jm];B[kh];W[km];B[jg];W[jl];B[kf];W[li]
;B[je];W[id];B[jf];W[jd];B[jh])

829: 310 2017/05/19(金)20:14 ID:skXdWaLK(1) AAS
結局、tiny_dnnでDCNNを組んでテスト開始。
ウィンドウサイズ３で、Conv７層＋fullcon２層構成。
隠れ層のチャンネル数は暫定で３２。
入力は自分・相手・空白・着手可能位置の６４×４個。

入力データをDCNN用に展開すると、メモリーに収まりきらずに盛大にスワップ。
BITBOARDの６４ビットデータ（unsigned int64）が、３２ビット（float）×６４個のvectorに
膨らんでしまうのが原因です。

仕方がないので、ファイルを適当なサイズごと読み込みながら、中間バッチを作って、
それを順次学習する形にしました。

で、中間の時間を計ってみたところ、１エポック分学習するのに数日という予想に。

全く非実用的です。どうしよう。

830: 535 2017/05/19(金)20:21 ID:z5dIsNlN(1) AAS
310氏は今のノート捨ててデスクトップでいい奴組むべきｗ

831: 310 2017/05/21(日)16:44 ID:kUdqCG8C(1) AAS
ちょこっと直して学習して様子を見てとかやってるうちに、学習しない時間かかると
言う酷い状況に陥りました。最初にテストで１バッチやった時は１８分で３５％程度の
正答率だったのに。いまでは１バッチ１時間の癖にNaNになったり、正答率３％程度に
落ち着いちゃったり。いわゆる勾配消失になってる模様です。学習進めば進むほど、
勾配消失も進むので、活性化関数をLeaky_ReLUとかにしなきゃいけないかも。

で、段々と強化学習方向に逃げはじめました。
かなり小さいDCNNで学習できるかテストするつもりで、強化学習のプログラム書き
はじめました。まあ、学習するにも、余計時間かかりそうですが。

マジで、デスクトップ欲しいです・・・

832: 535 2017/05/24(水)20:50 ID:NHCMa7e2(1) AAS
中盤で攻めがつながるうち回しが欲しいなぁ。
上手く探索したらかなり枝刈出来そうな気もするが、
それは手書き評価関数を書くのと変わらん難しさという。

833: 535 2017/05/25(木)21:07 ID:nz71uY7p(1) AAS
うあああああ、なんかおかしいと思ったらデータ読み込んでなかったｗ
全然変な手を打つと思ったらそういうことかーorz orz orz

834: 535 2017/05/26(金)21:03 ID:B39N4gaL(1) AAS
バグが治ったらLV３にいい線まで迫ってきた凄い！

18局目
黒(airandom.dll)の勝利回数: 9
白(ai-lv3.dll)の勝利回数: 9

19局目
黒(ai-lv3.dll)の勝利回数: 12
白(airandom.dll)の勝利回数: 7

思考時間がめちゃくちゃ長いのが当面の課題ですね〜

835: 535 2017/05/27(土)01:33 ID:vCz7BcHT(1) AAS
多分、あと二つくらい良い特徴量さえ見いだせればLV３に勝つる。
良い特徴量さえあれば！

836: 310 2017/05/27(土)20:17 ID:TGXtrM6M(1) AAS
強化学習に大きく方向転換。

最初、ポリシーネットを模して学習しようとしたけど、出力がソフトマックスの時
負け側の教師データをどうするのか不安があったので、まずは普通にQ学習で
勝率を学ぶ事にしました。

ざっと作ったところでデバッグに時間がかかりまして、ようやく多分ちゃんと学習して
いるんじゃないかと思うところまで来ました。が、初期の学習をしないでランダム初期化
のまま開始してしまいましたので、学習はしているみたいだけど、実用レベルの学習
をするまで、どれくらいかかるのか、想像もつきません（汗

１００回対戦して、１エポック学習するのに、大体８〜１０分くらい。控えめに見て
１０００万対戦としても、１０万分。つまり２か月強必要です。アルファ碁は初期値を
学習した上で追加の強化学習が確か数千万対戦だから、年単位でも足りないかも（笑）

手を完全に固定（ランダム要素排除）した状態で学習により勝つ方向に遷移する事
は確認しましたが、最初の方をランダムにしたりε-greedyしたりして局面が偏らない
ようにしてから、１万対戦しても勝率が良くなる気配が無いので、まだすごく不安です。

837: 310 2017/05/28(日)21:36 ID:354vTA35(1) AAS
ちょっと学習データの保管期限長くしたら１００ゲーム１４分になった。

あと、テストゲームで動くはずのない側（学習していない方）の手が変わったので
変だなと確認したら、バグ発見。後手番になっても、先手のAIを使用していた（汗

数万ゲーム行っていたのに、また一から学習しなおし。
どうせ適当に構成しているので、少しネットワークを簡素にしてみるかな。

838: 535 2017/05/30(火)22:08 ID:rOaQFKPq(1) AAS
囲連星における将棋で言うところの詰めろと必至を計算するルーチンが欲しい。
かなり切実に。

839: 310 2017/05/30(火)23:20 ID:rROdfu2T(1) AAS
バグ取りしながら、色々いじったら、バグとる前に別のバグを仕込んで・・・
と、長らくデバッグしてましたが、ようやくいじりたくなるところが収束し、バグが
とれて、学習が進むようになりました。

１００ゲームプレイして学習のサイクル１回が４分弱になりましたので、
結構気持ちが楽になりました。とりあえず１週間くらい学習させてみます。

一通りできたら、ポリシーの方にもトライしてみようと思います。

840: 535 2017/06/01(木)22:33 ID:COhqrYJ6(1) AAS
棋譜から詰めろと必至になったパターンを抽出してDBを作ってみようかな。

841: 535 2017/06/02(金)22:15 ID:uf6z9S1Y(1) AAS
簡単に２手連打で必勝形ならば詰めろ、ということで仮組みしてみた。
どんな感じかな。

今度AMDからでるスレッドリッパーが気になってしょうがない。

842: 535 2017/06/03(土)00:14 ID:976t+GmL(1/2) AAS
詰めろルーチンなかなかいい感じ？
石の流れが良くなった気がする。

そろそろシチョウルーチンも書かないとだな。

843: 535 2017/06/03(土)18:55 ID:976t+GmL(2/2) AAS
現在LV3と対戦中ですがなかなかいい感じです。

13局目
黒(airandom.dll)の勝利回数: 9
白(ai-lv3.dll)の勝利回数: 4

11局目
黒(ai-lv3.dll)の勝利回数: 9
白(airandom.dll)の勝利回数: 2

白番でもうちょっと勝ちたいですねぇ
あと対戦にめちゃめちゃ時間かかるのがどうにも。

844: 535 2017/06/04(日)20:33 ID:55DsrXcK(1) AAS
黒番対LV3大きく勝ち越せるかと思ったけど、その後追いつかれちゃってがっかりして対戦止めちゃいました。
もう一工夫必要ですね。

845: 535 2017/06/05(月)00:12 ID:7uLLK55W(1/2) AAS
気を取り直してLV1,LV2と対戦中
なかなかいい感じ

19局目
黒(airandom.dll)の勝利回数: 19
白(ai-lv1.dll)の勝利回数: 0

17局目
黒(airandom.dll)の勝利回数: 16
白(ai-lv2.dll)の勝利回数: 1

846: 535 2017/06/05(月)19:22 ID:7uLLK55W(2/2) AAS
引き続き対戦中
なかなかいい感じ

40局目
黒(airandom.dll)の勝利回数: 39
白(ai-lv1.dll)の勝利回数: 1

37局目
黒(airandom.dll)の勝利回数: 36
白(ai-lv2.dll)の勝利回数: 1

847: 310 2017/06/05(月)19:52 ID:PVR4/NQn(1) AAS
強化学習にトライ中。
最初の勝敗をQ学習する方法は目に見えて学習できていそうだったのですが、
ネットワークが小さすぎたのか、比較的早い段階で飽和。ネットワークを深くして
再試行しようかと思ったのですが、せっかくなのでポリシーの学習にトライ。

しかし、Q学習と違って、学習が上手く進みません。
初期値問題かと思って、最初に教師あり学習をさせてみましたが、やはり勝率が
上がらないというか、３０％近辺に落ち込んだまま浮かんでも５０％くらいにしか
ならない感じ。このまま続けたら、どこかで戻ってくるのか。１００対局の強化学習
で３０分かかるので、どうしようかと。

Q学習の方は、比較的簡単に、対象のAIに勝てるようになっていて、世代の追加が
順調に進んでいました。ポリシーだと何故ダメなのか考えれば考えるほど、頭が
混乱してます。

848: 310 2017/06/06(火)20:05 ID:6owNcmqA(1/2) AAS
バグ見つけた。簡単かつ破壊力があるやつ。
教師あり学習の一致率が試行回数少ないのに８５％とかになっていて
おかしいとは思っていたんだけど。教師付学習も強化学習も同じバグ。
自分の盤面のところに、次の着手（要するに教師データ）を入れてた。

というわけで、教師付学習からやり直しています。
雰囲気的には、今のネットワークで一致率５０％近くまで行きそうです。

あと、GitHUBでAlpha Goクローンを作っているプロジェクトを発見。
解説ページで評価関数部分を結構細かく解説してくれています。

そこで、ポリシーネットの負けた側について「学習率をマイナス」にして
学習すると書かれていて(@o@)。こんなスマートな方法があったとは
やられました。

849: 535 2017/06/06(火)20:11 ID:7GjyRXFQ(1/3) AAS
>GitHUBでAlpha Goクローンを作っているプロジェクトを発見。

URLくだしあ

850: 535 2017/06/06(火)20:40 ID:7GjyRXFQ(2/3) AAS
外部ﾘﾝｸ:github.com
これかな。

851(1): 310 2017/06/06(火)20:47 ID:6owNcmqA(2/2) AAS
それだす。

一致率は４５％で頭打ち。
時間かけずに一致率上げる工夫方面に転進します。

上下前次 1-新書関写板覧索設栞歴

あと 151 ﾚｽあります
ｽﾚ情報赤ﾚｽ抽出画像ﾚｽ抽出歴の未読ｽﾚ

ぬこの手ぬこTOP 0.021s