【オセロ,将棋】ボードゲーム【囲碁,War】

[過去ﾛｸﾞ] 【オセロ,将棋】ボードゲーム【囲碁,War】 (1002ﾚｽ)
上下前次 1-新

このｽﾚｯﾄﾞは過去ﾛｸﾞ倉庫に格納されています｡
次ｽﾚ検索歴削→次ｽﾚ栞削→次ｽﾚ過去ﾛｸﾞﾒﾆｭｰ

805: 310 2017/04/27(木)22:32 ID:gagL5fDM(1/2) AAS
億劫な時ありますね。アイデアが枯渇した時とか、陥りがちです。
しばらく放置するとアイデアが出て来たりします。

さて、線形Softmaxなポリシーネットですが、色々やって何とか計算開始しました。

回転同形の処理を真面目にやったらメモリーパンクでスワップしてしまってボツ。
仕方がないので、エポック事に回転同形をランダムに作る事に。

計算にものすごい時間がかかるので、ミニバッチサイズをミニとはとても言えない
ほどでかくして時短。お蔭で６時間越え→５０分程度になりました。もっとでかくすると
更に時短できるかな。

序盤の盤面は重複が多く、学習に悪影響がありそうなので、％指定してカット。
（そのうち、同一盤面同一次着手は１件に集約しようかと思っています。）

こんな感じで現在２エポック目ですが、５７％くらいの一致率という極めて優秀な成果が
出てきています。

それでも着手不能箇所が確率１位になっちゃったりするので、使用時に着手可能位置
のみ計算するようにしました。これで多少は一致率が上がるはず。

806: 310 2017/04/27(木)22:33 ID:gagL5fDM(2/2) AAS
藤井４段凄いですね。
コンピュータ将棋で鍛えたからかな。
なんか新しい手を打ってるみたいですね。

807: 2017/04/28(金)07:46 ID:cnKbVTYz(1) AAS
ニュースを見て藤井猛が勝利したのかと
勘違いした俺…
ニュースにならねえよ！

808: 535 2017/04/29(土)00:08 ID:knMl9lYg(1) AAS
ニューラルネットワーク自作入門という本を買ってきました。
平易に書こうとしてるのが伝わってくる本ですね。
平易に書くの最近の流行りなんですかね？

809: 310 2017/05/03(水)15:03 ID:v36x8qrF(1) AAS
最近はもっぱらポリシーとバリューの両評価関数のテストです。

ポリシーの方は線形ソフトマックスで大丈夫そう。大体５０％の正答率になります。
MLP版もコーディングはしてますが、まだテストまで至っていません。

バリューの方は、ステージ分割なしのMLP版を試してます。
計算に時間がかかりすぎて調整が進みません（汗

頭の片隅には、いつかはDCNNというのが残っています。
以前やった時に、畳み込みフィルタ演算の展開形を考えた事あります。
その時は、汎用性が無いという理由で、あまり乗り気じゃなかったのですが、
今となっては、そのまま進めればよかったかなと思う次第。

810: 2017/05/04(木)17:16 ID:Hvuj7SvG(1) AAS
pona負けたとかなんとか

811: 310 2017/05/05(金)01:52 ID:Orwfb9MI(1/5) AAS
世界コンピュータ将棋選手権ですね。
８勝１敗同率で、elmoに直接対決で負けた関係で予選２位通過みたいですね。

将棋は電王戦くらいしか見てなかったので、マシン制限があると思ったら、
こっちは凄いですね。CPU1092（Xeon)にGPU128基ですか…。
やっぱディープラーニングすると、それなりのマシンパワーがいるのよね。
しかも最速マシンは２０億NPSとか言っているみたい（笑うしかない）。

812: 310 2017/05/05(金)02:46 ID:Orwfb9MI(2/5) AAS
で、Ponanza Chainerに対する半可通っぽい疑問。

アピール文章読んだけど、ディープラーニングは評価関数ではなく、
ポリシーネットに相当する次の１手導出に使われているっぽい。
何故バリューじゃなくてポリシーなのか？

で、αβ系探索でポリシーとなるとオーダリングに使うくらいしか思いつかない。
将棋ってオーダリングに良いヒューリスティックスないのかな？
YBWCのPV決定だと縦に並んじゃうから、並列にする意味がない。
確率の高い手は次の段でPVの数を増やしたりするのかな？

813(1): 2017/05/05(金)08:17 ID:cViTmSg9(1) AAS
将棋（やチェス）だとYBWCよりもLazy SMPが流行ってるみたいですね
Ponanza Chainerはそれのクラスタ版のeXtreme Lazy Smpらしいですが。

814: 310 2017/05/05(金)08:31 ID:Orwfb9MI(3/5) AAS
>>813
どうもです。早速見てみました。

自分のPCは２コアの擬似４コアなので恩恵なさそうです（汗

つか、並列化についてはPPLにお任せしちゃってるので、あまり要点が
わかっていないかも。

しかし、GPS将棋のクラスタすげーと思っていた時代は、一瞬で過去の
ものになってしまったのですねぇ。

815: 310 2017/05/05(金)17:24 ID:Orwfb9MI(4/5) AAS
elmo優勝でPonanzaが２位みたいですね。
なんか、将棋も強くなるスピードが尋常じゃない感じ。

目標設定して（前年比９割勝利とか）、マシンパワーとか確実性が
ある所にも、資源を振り向けて達成しているみたいにも見えますが。

816(2): 2017/05/05(金)17:48 ID:hWowcZg5(1/2) AAS
ディープラーニングと将棋の相性が悪いてことだろうか？
elmoとやらは既存アルゴリズムなんですよね？

817: 2017/05/05(金)18:47 ID:hWowcZg5(2/2) AAS
elmoて公開されてるんです？
すごいなー
ソース読んでみようかなー

818: 310 2017/05/05(金)20:43 ID:Orwfb9MI(5/5) AAS
>>816
自己対局で作った自作定石のDB積んでるみたいです。

ディープラーニングの使う場所は、オーダリングくらいしかなさそうなので、
実はオーバーヘッドとの兼ね合いが微妙じゃないかと疑ってます。

819: 2017/05/06(土)09:18 ID:ODpfq25G(1) AAS
自分もディープラーニングっぽいので将棋作ろうとしたけど
能力も価値も違う駒が複数あるから、それをどうするかで悩んで止まった
そのまま探索に掛けるわけにもいかず
ようするに駒割をどうするかわからなかった
一致率自体は普通に上げられるんだけどね

820: 2017/05/06(土)09:20 ID:bJnH/Q0z(1) AAS
そもそも将棋って、同種のゲームの中でAIにやらせるのは一番難しいくらいなんでしょ？
もっと簡単なゲームからやってみては。

821: 310 2017/05/06(土)09:41 ID:eGOwqfr/(1) AAS
>>816
相性が悪いというより、効果を出し切れるところまで行かなかったのかも知れませんね。
Ponanzaは２位とはいえ、他の人には全部勝っているわけで、弱くなったわけではないと
思います。

elmoは予選で１敗しているので、予選時にponanzaに勝ったのまぐれかもと思っていたけど
直接対決２連勝で、決勝は全勝なので、やはりelmoの１年間での進歩が凄いかと。

１年間という時間制約の中で、レート向上の目標を２００くらいとして、それを何で達成
するかと考えた時に、ディープラーニングを使わなくても同じくらいの向上はできたのかも
知れませんね。

とはいえ、今年は十分に活用しきれなかったけど、適用の仕方を煮詰める事で、来年から
はボーナスのレート向上が見込めるとか、そういう事はあるかも知れませんね。

822: 535 2017/05/08(月)22:06 ID:bLY5QORw(1) AAS
ディープラーニングやり直してみました。
与えられた局面の勝率を学習させて、一手読みで打たせてみました。
局面が均衡しているときは結構いい手を返すみたいですが、
不利に傾くと全然おかしい手を打ち始めます。
学習させた棋譜に偏りがあるんだろうか？
どちらかに不利に傾いた局面も学習させるべき？

823: 310 2017/05/08(月)23:27 ID:Byk3wJkT(1) AAS
悩ましいところですね。偏った棋譜を学習させるべきか、否か。

相手も弱いから、偏った棋譜になるわけで、そういう時にも問題が起きないように
探索と組み合わせるわけで。そう考えたら、そのままで良いのかも知れないし、
やってみないとわからないかも。自分的には、MCTSにおいてモンテカルロの
問題（隘路の騙し構造）に対して、先に避けるために、選択肢を偏らせるモノだと
認識していますので、拮抗している時に正しい手を返せばよいかと思っています。

自分は、Buroさんの特徴量をベースにしたMLPで評価関数作っているのだけど、
傾向としては線形回帰と変わらない印象です。与えている元データの偏りなのか、
それとも特徴量の選択の問題なのか、悩み中です。DCNNで特徴量抽出まで
やらせたいと、をもう一度試そうかなと言う機運になってます。

ただ、頭の中に、ワンチップマイコンで学習外だしというのがチラついていまして、
そこに入り込むと数か月、下手したら半年はとられるなぁと悶々中。

そうそう。アルファ碁のバリューネットの勝率ですが、割引率を考えたら…
という点に思い至りまして。普通勝率の評価関数はロクなもんじゃないのですが、
強化学習とセットなら、ありかもとちょっと思っています。

824: 310 2017/05/15(月)09:41 ID:hagdu+z8(1) AAS
オライリーさんのところのディープラーニング本（Pythonで学ぶ奴）を読んでみました。
自分で実装する人には、なかなか良いです。Python知らないですが、説明だけで結構
おなか一杯になります。

オライリー本で、畳み込み演算の実装（行列に落とし込む）の良い方法がわかりました。
自分が以前やって放置した展開形よりもっと良い方法があるんですね。ちと畳み込む気
が湧いてきました。

現在MLP版のポリシーネットを学習させていますが、テストデータに対して６０％越え
まで来ました。一方で入力データサイズが８９万（特徴）×１６万（ミニｗバッチ）とか
わけわからん事になっていて、もう畳み込んでも処理量大差ないんじゃないかと思って
いたところですので、学習限界が見えたら、畳み込みに行ってみようかと思います。

あと、やっぱり強化学習ですね。既存データで学習していても埒があかない気が強くして
きました。

825(1): 535 2017/05/15(月)22:23 ID:1z5ugcc4(1) AAS
ディープラーニング黒石を1、空点を0、白石を-1を入力として学習させたけど、
黒石かそうでないかの01データと空点かそうでないかの01データと白石かそうでないかの01のデータ
と３つに分けて食わせたほうがいいんだろうか？

826(1): 310 2017/05/16(火)09:54 ID:Vk+2t4O7(1) AAS
>>825
問答無用で後者です。

827: 535 2017/05/16(火)21:15 ID:3NTvf1qj(1) AAS
>>826
うーんそうなんですか。なんかそんな気はしましたが。。。
まあぼちぼちやりなおしてみます。
ありがとうございます。

828: 535 2017/05/17(水)22:57 ID:2rHwBE7R(1) AAS
今すごくいい勝ち方した。
必勝形を意識した連続攻撃。
こういうのが毎回打てればなぁ。

(;SZ[19]
;B[jj];W[ik];B[ij];W[hk];B[jk];W[gk];B[kl];W[hi]
;B[ji];W[jm];B[kh];W[km];B[jg];W[jl];B[kf];W[li]
;B[je];W[id];B[jf];W[jd];B[jh])

829: 310 2017/05/19(金)20:14 ID:skXdWaLK(1) AAS
結局、tiny_dnnでDCNNを組んでテスト開始。
ウィンドウサイズ３で、Conv７層＋fullcon２層構成。
隠れ層のチャンネル数は暫定で３２。
入力は自分・相手・空白・着手可能位置の６４×４個。

入力データをDCNN用に展開すると、メモリーに収まりきらずに盛大にスワップ。
BITBOARDの６４ビットデータ（unsigned int64）が、３２ビット（float）×６４個のvectorに
膨らんでしまうのが原因です。

仕方がないので、ファイルを適当なサイズごと読み込みながら、中間バッチを作って、
それを順次学習する形にしました。

で、中間の時間を計ってみたところ、１エポック分学習するのに数日という予想に。

全く非実用的です。どうしよう。

830: 535 2017/05/19(金)20:21 ID:z5dIsNlN(1) AAS
310氏は今のノート捨ててデスクトップでいい奴組むべきｗ

831: 310 2017/05/21(日)16:44 ID:kUdqCG8C(1) AAS
ちょこっと直して学習して様子を見てとかやってるうちに、学習しない時間かかると
言う酷い状況に陥りました。最初にテストで１バッチやった時は１８分で３５％程度の
正答率だったのに。いまでは１バッチ１時間の癖にNaNになったり、正答率３％程度に
落ち着いちゃったり。いわゆる勾配消失になってる模様です。学習進めば進むほど、
勾配消失も進むので、活性化関数をLeaky_ReLUとかにしなきゃいけないかも。

で、段々と強化学習方向に逃げはじめました。
かなり小さいDCNNで学習できるかテストするつもりで、強化学習のプログラム書き
はじめました。まあ、学習するにも、余計時間かかりそうですが。

マジで、デスクトップ欲しいです・・・

832: 535 2017/05/24(水)20:50 ID:NHCMa7e2(1) AAS
中盤で攻めがつながるうち回しが欲しいなぁ。
上手く探索したらかなり枝刈出来そうな気もするが、
それは手書き評価関数を書くのと変わらん難しさという。

833: 535 2017/05/25(木)21:07 ID:nz71uY7p(1) AAS
うあああああ、なんかおかしいと思ったらデータ読み込んでなかったｗ
全然変な手を打つと思ったらそういうことかーorz orz orz

834: 535 2017/05/26(金)21:03 ID:B39N4gaL(1) AAS
バグが治ったらLV３にいい線まで迫ってきた凄い！

18局目
黒(airandom.dll)の勝利回数: 9
白(ai-lv3.dll)の勝利回数: 9

19局目
黒(ai-lv3.dll)の勝利回数: 12
白(airandom.dll)の勝利回数: 7

思考時間がめちゃくちゃ長いのが当面の課題ですね〜

上下前次 1-新書関写板覧索設栞歴

あと 168 ﾚｽあります
ｽﾚ情報赤ﾚｽ抽出画像ﾚｽ抽出歴の未読ｽﾚ

ぬこの手ぬこTOP 0.011s