[過去ログ]
【オセロ,将棋】ボードゲーム【囲碁,War】 (1002レス)
【オセロ,将棋】ボードゲーム【囲碁,War】 http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/
上
下
前
次
1-
新
通常表示
512バイト分割
レス栞
このスレッドは過去ログ倉庫に格納されています。
次スレ検索
歴削→次スレ
栞削→次スレ
過去ログメニュー
818: 310 [sage] 2017/05/05(金) 20:43:38.31 ID:Orwfb9MI >>816 自己対局で作った自作定石のDB積んでるみたいです。 ディープラーニングの使う場所は、オーダリングくらいしかなさそうなので、 実はオーバーヘッドとの兼ね合いが微妙じゃないかと疑ってます。 http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/818
819: 名前は開発中のものです。 [sage] 2017/05/06(土) 09:18:07.29 ID:ODpfq25G 自分もディープラーニングっぽいので将棋作ろうとしたけど 能力も価値も違う駒が複数あるから、それをどうするかで悩んで止まった そのまま探索に掛けるわけにもいかず ようするに駒割をどうするかわからなかった 一致率自体は普通に上げられるんだけどね http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/819
820: 名前は開発中のものです。 [sage] 2017/05/06(土) 09:20:21.30 ID:bJnH/Q0z そもそも将棋って、同種のゲームの中でAIにやらせるのは一番難しいくらいなんでしょ? もっと簡単なゲームからやってみては。 http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/820
821: 310 [sage] 2017/05/06(土) 09:41:02.64 ID:eGOwqfr/ >>816 相性が悪いというより、効果を出し切れるところまで行かなかったのかも知れませんね。 Ponanzaは2位とはいえ、他の人には全部勝っているわけで、弱くなったわけではないと 思います。 elmoは予選で1敗しているので、予選時にponanzaに勝ったのまぐれかもと思っていたけど 直接対決2連勝で、決勝は全勝なので、やはりelmoの1年間での進歩が凄いかと。 1年間という時間制約の中で、レート向上の目標を200くらいとして、それを何で達成 するかと考えた時に、ディープラー
ニングを使わなくても同じくらいの向上はできたのかも 知れませんね。 とはいえ、今年は十分に活用しきれなかったけど、適用の仕方を煮詰める事で、来年から はボーナスのレート向上が見込めるとか、そういう事はあるかも知れませんね。 http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/821
822: 535 [sage] 2017/05/08(月) 22:06:30.07 ID:bLY5QORw ディープラーニングやり直してみました。 与えられた局面の勝率を学習させて、一手読みで打たせてみました。 局面が均衡しているときは結構いい手を返すみたいですが、 不利に傾くと全然おかしい手を打ち始めます。 学習させた棋譜に偏りがあるんだろうか? どちらかに不利に傾いた局面も学習させるべき? http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/822
823: 310 [sage] 2017/05/08(月) 23:27:34.27 ID:Byk3wJkT 悩ましいところですね。偏った棋譜を学習させるべきか、否か。 相手も弱いから、偏った棋譜になるわけで、そういう時にも問題が起きないように 探索と組み合わせるわけで。そう考えたら、そのままで良いのかも知れないし、 やってみないとわからないかも。自分的には、MCTSにおいてモンテカルロの 問題(隘路の騙し構造)に対して、先に避けるために、選択肢を偏らせるモノだと 認識していますので、拮抗している時に正しい手を返せばよいかと思っています。 自分は、Buroさんの特徴量を
ベースにしたMLPで評価関数作っているのだけど、 傾向としては線形回帰と変わらない印象です。与えている元データの偏りなのか、 それとも特徴量の選択の問題なのか、悩み中です。DCNNで特徴量抽出まで やらせたいと、をもう一度試そうかなと言う機運になってます。 ただ、頭の中に、ワンチップマイコンで学習外だしというのがチラついていまして、 そこに入り込むと数か月、下手したら半年はとられるなぁと悶々中。 そうそう。アルファ碁のバリューネットの勝率ですが、割引率を考えたら… という点に思い至りまして。普通勝率の評価関数はロクなも
んじゃないのですが、 強化学習とセットなら、ありかもとちょっと思っています。 http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/823
824: 310 [sage] 2017/05/15(月) 09:41:45.01 ID:hagdu+z8 オライリーさんのところのディープラーニング本(Pythonで学ぶ奴)を読んでみました。 自分で実装する人には、なかなか良いです。Python知らないですが、説明だけで結構 おなか一杯になります。 オライリー本で、畳み込み演算の実装(行列に落とし込む)の良い方法がわかりました。 自分が以前やって放置した展開形よりもっと良い方法があるんですね。ちと畳み込む気 が湧いてきました。 現在MLP版のポリシーネットを学習させていますが、テストデータに対して60%越え まで来ました。一
方で入力データサイズが89万(特徴)×16万(ミニwバッチ)とか わけわからん事になっていて、もう畳み込んでも処理量大差ないんじゃないかと思って いたところですので、学習限界が見えたら、畳み込みに行ってみようかと思います。 あと、やっぱり強化学習ですね。既存データで学習していても埒があかない気が強くして きました。 http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/824
825: 535 [sage] 2017/05/15(月) 22:23:31.10 ID:1z5ugcc4 ディープラーニング黒石を1、空点を0、白石を-1を入力として学習させたけど、 黒石かそうでないかの01データと空点かそうでないかの01データと白石かそうでないかの01のデータ と3つに分けて食わせたほうがいいんだろうか? http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/825
826: 310 [sage] 2017/05/16(火) 09:54:31.52 ID:Vk+2t4O7 >>825 問答無用で後者です。 http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/826
827: 535 [sage] 2017/05/16(火) 21:15:39.88 ID:3NTvf1qj >>826 うーんそうなんですか。なんかそんな気はしましたが。。。 まあぼちぼちやりなおしてみます。 ありがとうございます。 http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/827
828: 535 [sage] 2017/05/17(水) 22:57:33.27 ID:2rHwBE7R 今すごくいい勝ち方した。 必勝形を意識した連続攻撃。 こういうのが毎回打てればなぁ。 (;SZ[19] ;B[jj];W[ik];B[ij];W[hk];B[jk];W[gk];B[kl];W[hi] ;B[ji];W[jm];B[kh];W[km];B[jg];W[jl];B[kf];W[li] ;B[je];W[id];B[jf];W[jd];B[jh]) http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/828
829: 310 [sage] 2017/05/19(金) 20:14:05.97 ID:skXdWaLK 結局、tiny_dnnでDCNNを組んでテスト開始。 ウィンドウサイズ3で、Conv7層+fullcon2層構成。 隠れ層のチャンネル数は暫定で32。 入力は自分・相手・空白・着手可能位置の64×4個。 入力データをDCNN用に展開すると、メモリーに収まりきらずに盛大にスワップ。 BITBOARDの64ビットデータ(unsigned int64)が、32ビット(float)×64個のvectorに 膨らんでしまうのが原因です。 仕方がないので、ファイルを適当なサイズごと読み込みながら、中間バッチを作って、 それを順次
学習する形にしました。 で、中間の時間を計ってみたところ、1エポック分学習するのに数日という予想に。 全く非実用的です。どうしよう。 http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/829
830: 535 [sage] 2017/05/19(金) 20:21:41.55 ID:z5dIsNlN 310氏は今のノート捨ててデスクトップでいい奴組むべきw http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/830
831: 310 [sage] 2017/05/21(日) 16:44:31.83 ID:kUdqCG8C ちょこっと直して学習して様子を見てとかやってるうちに、学習しない時間かかると 言う酷い状況に陥りました。最初にテストで1バッチやった時は18分で35%程度の 正答率だったのに。いまでは1バッチ1時間の癖にNaNになったり、正答率3%程度に 落ち着いちゃったり。いわゆる勾配消失になってる模様です。学習進めば進むほど、 勾配消失も進むので、活性化関数をLeaky_ReLUとかにしなきゃいけないかも。 で、段々と強化学習方向に逃げはじめました。 かなり小さいDCNNで学習できるか
テストするつもりで、強化学習のプログラム書き はじめました。まあ、学習するにも、余計時間かかりそうですが。 マジで、デスクトップ欲しいです・・・ http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/831
832: 535 [sage] 2017/05/24(水) 20:50:33.25 ID:NHCMa7e2 中盤で攻めがつながるうち回しが欲しいなぁ。 上手く探索したらかなり枝刈出来そうな気もするが、 それは手書き評価関数を書くのと変わらん難しさという。 http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/832
833: 535 [sage] 2017/05/25(木) 21:07:01.59 ID:nz71uY7p うあああああ、なんかおかしいと思ったらデータ読み込んでなかったw 全然変な手を打つと思ったらそういうことかーorz orz orz http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/833
834: 535 [sage] 2017/05/26(金) 21:03:34.78 ID:B39N4gaL バグが治ったらLV3にいい線まで迫ってきた凄い! 18局目 黒(airandom.dll)の勝利回数: 9 白(ai-lv3.dll)の勝利回数: 9 19局目 黒(ai-lv3.dll)の勝利回数: 12 白(airandom.dll)の勝利回数: 7 思考時間がめちゃくちゃ長いのが当面の課題ですね〜 http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/834
835: 535 [sage] 2017/05/27(土) 01:33:58.68 ID:vCz7BcHT 多分、あと二つくらい良い特徴量さえ見いだせればLV3に勝つる。 良い特徴量さえあれば! http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/835
836: 310 [sage] 2017/05/27(土) 20:17:57.81 ID:TGXtrM6M 強化学習に大きく方向転換。 最初、ポリシーネットを模して学習しようとしたけど、出力がソフトマックスの時 負け側の教師データをどうするのか不安があったので、まずは普通にQ学習で 勝率を学ぶ事にしました。 ざっと作ったところでデバッグに時間がかかりまして、ようやく多分ちゃんと学習して いるんじゃないかと思うところまで来ました。が、初期の学習をしないでランダム初期化 のまま開始してしまいましたので、学習はしているみたいだけど、実用レベルの学習 をするまで、どれくら
いかかるのか、想像もつきません(汗 100回対戦して、1エポック学習するのに、大体8〜10分くらい。控えめに見て 1000万対戦としても、10万分。つまり2か月強必要です。アルファ碁は初期値を 学習した上で追加の強化学習が確か数千万対戦だから、年単位でも足りないかも(笑) 手を完全に固定(ランダム要素排除)した状態で学習により勝つ方向に遷移する事 は確認しましたが、最初の方をランダムにしたりε-greedyしたりして局面が偏らない ようにしてから、1万対戦しても勝率が良くなる気配が無いので、まだすごく不安です。
http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/836
837: 310 [sage] 2017/05/28(日) 21:36:00.20 ID:354vTA35 ちょっと学習データの保管期限長くしたら100ゲーム14分になった。 あと、テストゲームで動くはずのない側(学習していない方)の手が変わったので 変だなと確認したら、バグ発見。後手番になっても、先手のAIを使用していた(汗 数万ゲーム行っていたのに、また一から学習しなおし。 どうせ適当に構成しているので、少しネットワークを簡素にしてみるかな。 http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/837
838: 535 [sage] 2017/05/30(火) 22:08:02.05 ID:rOaQFKPq 囲連星における将棋で言うところの詰めろと必至を計算するルーチンが欲しい。 かなり切実に。 http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/838
839: 310 [sage] 2017/05/30(火) 23:20:25.76 ID:rROdfu2T バグ取りしながら、色々いじったら、バグとる前に別のバグを仕込んで・・・ と、長らくデバッグしてましたが、ようやくいじりたくなるところが収束し、バグが とれて、学習が進むようになりました。 100ゲームプレイして学習のサイクル1回が4分弱になりましたので、 結構気持ちが楽になりました。とりあえず1週間くらい学習させてみます。 一通りできたら、ポリシーの方にもトライしてみようと思います。 http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/839
840: 535 [sage] 2017/06/01(木) 22:33:27.70 ID:COhqrYJ6 棋譜から詰めろと必至になったパターンを抽出してDBを作ってみようかな。 http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/840
841: 535 [sage] 2017/06/02(金) 22:15:50.82 ID:uf6z9S1Y 簡単に2手連打で必勝形ならば詰めろ、ということで仮組みしてみた。 どんな感じかな。 今度AMDからでるスレッドリッパーが気になってしょうがない。 http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/841
842: 535 [sage] 2017/06/03(土) 00:14:49.53 ID:976t+GmL 詰めろルーチンなかなかいい感じ? 石の流れが良くなった気がする。 そろそろシチョウルーチンも書かないとだな。 http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/842
843: 535 [sage] 2017/06/03(土) 18:55:22.80 ID:976t+GmL 現在LV3と対戦中ですがなかなかいい感じです。 13局目 黒(airandom.dll)の勝利回数: 9 白(ai-lv3.dll)の勝利回数: 4 11局目 黒(ai-lv3.dll)の勝利回数: 9 白(airandom.dll)の勝利回数: 2 白番でもうちょっと勝ちたいですねぇ あと対戦にめちゃめちゃ時間かかるのがどうにも。 http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/843
844: 535 [sage] 2017/06/04(日) 20:33:26.28 ID:55DsrXcK 黒番対LV3大きく勝ち越せるかと思ったけど、その後追いつかれちゃってがっかりして対戦止めちゃいました。 もう一工夫必要ですね。 http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/844
845: 535 [sage] 2017/06/05(月) 00:12:02.90 ID:7uLLK55W 気を取り直してLV1,LV2と対戦中 なかなかいい感じ 19局目 黒(airandom.dll)の勝利回数: 19 白(ai-lv1.dll)の勝利回数: 0 17局目 黒(airandom.dll)の勝利回数: 16 白(ai-lv2.dll)の勝利回数: 1 http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/845
846: 535 [sage] 2017/06/05(月) 19:22:25.72 ID:7uLLK55W 引き続き対戦中 なかなかいい感じ 40局目 黒(airandom.dll)の勝利回数: 39 白(ai-lv1.dll)の勝利回数: 1 37局目 黒(airandom.dll)の勝利回数: 36 白(ai-lv2.dll)の勝利回数: 1 http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/846
847: 310 [sage] 2017/06/05(月) 19:52:31.59 ID:PVR4/NQn 強化学習にトライ中。 最初の勝敗をQ学習する方法は目に見えて学習できていそうだったのですが、 ネットワークが小さすぎたのか、比較的早い段階で飽和。ネットワークを深くして 再試行しようかと思ったのですが、せっかくなのでポリシーの学習にトライ。 しかし、Q学習と違って、学習が上手く進みません。 初期値問題かと思って、最初に教師あり学習をさせてみましたが、やはり勝率が 上がらないというか、30%近辺に落ち込んだまま浮かんでも50%くらいにしか ならない感じ。このまま
続けたら、どこかで戻ってくるのか。100対局の強化学習 で30分かかるので、どうしようかと。 Q学習の方は、比較的簡単に、対象のAIに勝てるようになっていて、世代の追加が 順調に進んでいました。ポリシーだと何故ダメなのか考えれば考えるほど、頭が 混乱してます。 http://mevius.5ch.net/test/read.cgi/gamedev/1057763418/847
メモ帳
(0/65535文字)
上
下
前
次
1-
新
書
関
写
板
覧
索
設
栞
歴
あと 155 レスあります
スレ情報
赤レス抽出
画像レス抽出
歴の未読スレ
Google検索
Wikipedia
ぬこの手
ぬこTOP
0.016s