[過去ログ] 【オセロ,将棋】ボードゲーム【囲碁,War】 (1002レス)
上下前次1-新
このスレッドは過去ログ倉庫に格納されています。
次スレ検索 歴削→次スレ 栞削→次スレ 過去ログメニュー
796: 535 2017/04/13(木)22:33 ID:vVAZxoH8(1) AAS
いろいろ試してみてるけどなんか勝利手順DBを充実させるのが一番手っ取り早く強くなる気がする。
いま12万局分棋譜あるけど100万局くらいまで増やしてみるか…
もっと計算リソースが欲しい。
797: 310 2017/04/18(火)01:24 ID:Ohai0OaC(1) AAS
評価関数のエポックを更に進めたら180エポック近辺から勝てなくなってきました。
もしかしてたまたま間違ったところが、zebraの弱点をついていたのかも知れないし、
評価関数の値にメリハリがついてきて、逆に見落としが起きやすくなったのかも
知れないし。過学習かも知れないし。
評価関数をブラッシュアップするには、負け手順を棋譜化して、学習データに投入
しなきゃならん。
ところが、負け確定後に例の自爆モードが作動してしまいます。棋譜として使えるよう
にするために、ソルバーを復活させました。ついでに色々やってたら、見なかった事
にしていたバグもとれました。ついでだからと偶数理論を実装したのですが、かえって
遅くなってしまった。他の人はどういう実装しているのだろう。
今の速度だと35手目から読み切らないといけない。今の速度だと時間の予測が難し
いというか、軽く1時間はかかりそう。
798: 535 2017/04/19(水)21:59 ID:WjbK3YLE(1) AAS
Ponanzaがディープラーニング取り込みに成功したとかなんとか。
ハードもものすごいものを用意するそうですね。
799: 535 2017/04/21(金)20:55 ID:ZLYvyeQY(1/2) AAS
大分勝率上がってきた。
思考時間長いから数こなせないのが厳しいですね。
25局目
黒(airandom.dll)の勝利回数: 8
白(ai-lv3.dll)の勝利回数: 17
800: 535 2017/04/21(金)22:05 ID:ZLYvyeQY(2/2) AAS
やっぱディープラーニング憧れるなぁ。
俺のAIにもブレークスルーを起こしてくれw
801: 310 2017/04/23(日)20:02 ID:Kquj3Rxt(1) AAS
色々係数調整したらめっちゃ弱くなって焦ってあちこちいじってました。
最初の調整の方向が逆だった模様で、反対に振ったら少し良くなりました。
過学習っぽい問題を何とかしたくて、ポリシーネットが作れないか、もう一度挑戦してます。
線形Softmaxでまた色々やっていたのですが、今まで上手く行かなかった理由が判明。
特徴を圧縮するのに…反転させたり回転させたりしていたので、盤面位置がわからなく
なった投入データに対して、盤面との対応ができてる教師データと整合性が取れなく
なっていたと…いまさら気づきまして…学習部分を全面的に作り直しとなっています。
なんて馬鹿な事をしていたんでしょう(涙
つまり、これが原因だったら、MLPも使えるかもって事です。
流石にDCNNは関係ないですが。
802: 535 2017/04/24(月)23:38 ID:Jt3D6fnV(1) AAS
もう一回connect4に立ち返ってみるかな…
気分を変える意味でも…
803: 535 2017/04/25(火)21:31 ID:I7r6uvd5(1) AAS
あ〜なんか新しいことすんの億劫だな。
プログラミングは少し充電期間をおいて本でも読もうかな。
804: 2017/04/27(木)01:15 ID:KUFXWb0v(1) AAS
中学生が羽生さんに勝っちゃったとかでえらい盛り上がってるね
805: 310 2017/04/27(木)22:32 ID:gagL5fDM(1/2) AAS
億劫な時ありますね。アイデアが枯渇した時とか、陥りがちです。
しばらく放置するとアイデアが出て来たりします。
さて、線形Softmaxなポリシーネットですが、色々やって何とか計算開始しました。
回転同形の処理を真面目にやったらメモリーパンクでスワップしてしまってボツ。
仕方がないので、エポック事に回転同形をランダムに作る事に。
計算にものすごい時間がかかるので、ミニバッチサイズをミニとはとても言えない
ほどでかくして時短。お蔭で6時間越え→50分程度になりました。もっとでかくすると
更に時短できるかな。
序盤の盤面は重複が多く、学習に悪影響がありそうなので、%指定してカット。
(そのうち、同一盤面同一次着手は1件に集約しようかと思っています。)
こんな感じで現在2エポック目ですが、57%くらいの一致率という極めて優秀な成果が
出てきています。
それでも着手不能箇所が確率1位になっちゃったりするので、使用時に着手可能位置
のみ計算するようにしました。これで多少は一致率が上がるはず。
806: 310 2017/04/27(木)22:33 ID:gagL5fDM(2/2) AAS
藤井4段凄いですね。
コンピュータ将棋で鍛えたからかな。
なんか新しい手を打ってるみたいですね。
807: 2017/04/28(金)07:46 ID:cnKbVTYz(1) AAS
ニュースを見て藤井猛が勝利したのかと
勘違いした俺…
ニュースにならねえよ!
808: 535 2017/04/29(土)00:08 ID:knMl9lYg(1) AAS
ニューラルネットワーク自作入門という本を買ってきました。
平易に書こうとしてるのが伝わってくる本ですね。
平易に書くの最近の流行りなんですかね?
809: 310 2017/05/03(水)15:03 ID:v36x8qrF(1) AAS
最近はもっぱらポリシーとバリューの両評価関数のテストです。
ポリシーの方は線形ソフトマックスで大丈夫そう。大体50%の正答率になります。
MLP版もコーディングはしてますが、まだテストまで至っていません。
バリューの方は、ステージ分割なしのMLP版を試してます。
計算に時間がかかりすぎて調整が進みません(汗
頭の片隅には、いつかはDCNNというのが残っています。
以前やった時に、畳み込みフィルタ演算の展開形を考えた事あります。
その時は、汎用性が無いという理由で、あまり乗り気じゃなかったのですが、
今となっては、そのまま進めればよかったかなと思う次第。
810: 2017/05/04(木)17:16 ID:Hvuj7SvG(1) AAS
pona負けたとかなんとか
811: 310 2017/05/05(金)01:52 ID:Orwfb9MI(1/5) AAS
世界コンピュータ将棋選手権ですね。
8勝1敗同率で、elmoに直接対決で負けた関係で予選2位通過みたいですね。
将棋は電王戦くらいしか見てなかったので、マシン制限があると思ったら、
こっちは凄いですね。CPU1092(Xeon)にGPU128基ですか…。
やっぱディープラーニングすると、それなりのマシンパワーがいるのよね。
しかも最速マシンは20億NPSとか言っているみたい(笑うしかない)。
812: 310 2017/05/05(金)02:46 ID:Orwfb9MI(2/5) AAS
で、Ponanza Chainerに対する半可通っぽい疑問。
アピール文章読んだけど、ディープラーニングは評価関数ではなく、
ポリシーネットに相当する次の1手導出に使われているっぽい。
何故バリューじゃなくてポリシーなのか?
で、αβ系探索でポリシーとなるとオーダリングに使うくらいしか思いつかない。
将棋ってオーダリングに良いヒューリスティックスないのかな?
YBWCのPV決定だと縦に並んじゃうから、並列にする意味がない。
確率の高い手は次の段でPVの数を増やしたりするのかな?
813(1): 2017/05/05(金)08:17 ID:cViTmSg9(1) AAS
将棋(やチェス)だとYBWCよりもLazy SMPが流行ってるみたいですね
Ponanza Chainerはそれのクラスタ版のeXtreme Lazy Smpらしいですが。
814: 310 2017/05/05(金)08:31 ID:Orwfb9MI(3/5) AAS
>>813
どうもです。早速見てみました。
自分のPCは2コアの擬似4コアなので恩恵なさそうです(汗
つか、並列化についてはPPLにお任せしちゃってるので、あまり要点が
わかっていないかも。
しかし、GPS将棋のクラスタすげーと思っていた時代は、一瞬で過去の
ものになってしまったのですねぇ。
815: 310 2017/05/05(金)17:24 ID:Orwfb9MI(4/5) AAS
elmo優勝でPonanzaが2位みたいですね。
なんか、将棋も強くなるスピードが尋常じゃない感じ。
目標設定して(前年比9割勝利とか)、マシンパワーとか確実性が
ある所にも、資源を振り向けて達成しているみたいにも見えますが。
816(2): 2017/05/05(金)17:48 ID:hWowcZg5(1/2) AAS
ディープラーニングと将棋の相性が悪いてことだろうか?
elmoとやらは既存アルゴリズムなんですよね?
817: 2017/05/05(金)18:47 ID:hWowcZg5(2/2) AAS
elmoて公開されてるんです?
すごいなー
ソース読んでみようかなー
818: 310 2017/05/05(金)20:43 ID:Orwfb9MI(5/5) AAS
>>816
自己対局で作った自作定石のDB積んでるみたいです。
ディープラーニングの使う場所は、オーダリングくらいしかなさそうなので、
実はオーバーヘッドとの兼ね合いが微妙じゃないかと疑ってます。
819: 2017/05/06(土)09:18 ID:ODpfq25G(1) AAS
自分もディープラーニングっぽいので将棋作ろうとしたけど
能力も価値も違う駒が複数あるから、それをどうするかで悩んで止まった
そのまま探索に掛けるわけにもいかず
ようするに駒割をどうするかわからなかった
一致率自体は普通に上げられるんだけどね
820: 2017/05/06(土)09:20 ID:bJnH/Q0z(1) AAS
そもそも将棋って、同種のゲームの中でAIにやらせるのは一番難しいくらいなんでしょ?
もっと簡単なゲームからやってみては。
821: 310 2017/05/06(土)09:41 ID:eGOwqfr/(1) AAS
>>816
相性が悪いというより、効果を出し切れるところまで行かなかったのかも知れませんね。
Ponanzaは2位とはいえ、他の人には全部勝っているわけで、弱くなったわけではないと
思います。
elmoは予選で1敗しているので、予選時にponanzaに勝ったのまぐれかもと思っていたけど
直接対決2連勝で、決勝は全勝なので、やはりelmoの1年間での進歩が凄いかと。
1年間という時間制約の中で、レート向上の目標を200くらいとして、それを何で達成
するかと考えた時に、ディープラーニングを使わなくても同じくらいの向上はできたのかも
知れませんね。
とはいえ、今年は十分に活用しきれなかったけど、適用の仕方を煮詰める事で、来年から
はボーナスのレート向上が見込めるとか、そういう事はあるかも知れませんね。
822: 535 2017/05/08(月)22:06 ID:bLY5QORw(1) AAS
ディープラーニングやり直してみました。
与えられた局面の勝率を学習させて、一手読みで打たせてみました。
局面が均衡しているときは結構いい手を返すみたいですが、
不利に傾くと全然おかしい手を打ち始めます。
学習させた棋譜に偏りがあるんだろうか?
どちらかに不利に傾いた局面も学習させるべき?
823: 310 2017/05/08(月)23:27 ID:Byk3wJkT(1) AAS
悩ましいところですね。偏った棋譜を学習させるべきか、否か。
相手も弱いから、偏った棋譜になるわけで、そういう時にも問題が起きないように
探索と組み合わせるわけで。そう考えたら、そのままで良いのかも知れないし、
やってみないとわからないかも。自分的には、MCTSにおいてモンテカルロの
問題(隘路の騙し構造)に対して、先に避けるために、選択肢を偏らせるモノだと
認識していますので、拮抗している時に正しい手を返せばよいかと思っています。
自分は、Buroさんの特徴量をベースにしたMLPで評価関数作っているのだけど、
傾向としては線形回帰と変わらない印象です。与えている元データの偏りなのか、
それとも特徴量の選択の問題なのか、悩み中です。DCNNで特徴量抽出まで
やらせたいと、をもう一度試そうかなと言う機運になってます。
ただ、頭の中に、ワンチップマイコンで学習外だしというのがチラついていまして、
そこに入り込むと数か月、下手したら半年はとられるなぁと悶々中。
そうそう。アルファ碁のバリューネットの勝率ですが、割引率を考えたら…
という点に思い至りまして。普通勝率の評価関数はロクなもんじゃないのですが、
強化学習とセットなら、ありかもとちょっと思っています。
824: 310 2017/05/15(月)09:41 ID:hagdu+z8(1) AAS
オライリーさんのところのディープラーニング本(Pythonで学ぶ奴)を読んでみました。
自分で実装する人には、なかなか良いです。Python知らないですが、説明だけで結構
おなか一杯になります。
オライリー本で、畳み込み演算の実装(行列に落とし込む)の良い方法がわかりました。
自分が以前やって放置した展開形よりもっと良い方法があるんですね。ちと畳み込む気
が湧いてきました。
現在MLP版のポリシーネットを学習させていますが、テストデータに対して60%越え
まで来ました。一方で入力データサイズが89万(特徴)×16万(ミニwバッチ)とか
わけわからん事になっていて、もう畳み込んでも処理量大差ないんじゃないかと思って
いたところですので、学習限界が見えたら、畳み込みに行ってみようかと思います。
あと、やっぱり強化学習ですね。既存データで学習していても埒があかない気が強くして
きました。
825(1): 535 2017/05/15(月)22:23 ID:1z5ugcc4(1) AAS
ディープラーニング黒石を1、空点を0、白石を-1を入力として学習させたけど、
黒石かそうでないかの01データと空点かそうでないかの01データと白石かそうでないかの01のデータ
と3つに分けて食わせたほうがいいんだろうか?
上下前次1-新書関写板覧索設栞歴
あと 177 レスあります
スレ情報 赤レス抽出 画像レス抽出 歴の未読スレ
ぬこの手 ぬこTOP 0.017s