【オセロ,将棋】ボードゲーム Part2【囲碁,War】

[過去ﾛｸﾞ] 【オセロ,将棋】ボードゲーム Part2【囲碁,War】 (1002ﾚｽ)
上下前次 1-新

このｽﾚｯﾄﾞは過去ﾛｸﾞ倉庫に格納されています｡
次ｽﾚ検索歴削→次ｽﾚ栞削→次ｽﾚ過去ﾛｸﾞﾒﾆｭｰ

321: 535 2018/04/15(日)20:07 ID:8sCJrZFg(1/2) AAS
ベストポリシー更新まじコネ〜
でも他のプロジェクトに浮気しようにもなかなか手ごろなのがないんだよなぁ

322: 535 2018/04/15(日)20:21 ID:8sCJrZFg(2/2) AAS
いっそ実績のあるLeelaZeroを本気でパクりに行ってみるべきか…
でも多分、難解なんだろうな〜

323: 535 2018/04/16(月)20:30 ID:6KBtspgu(1/2) AAS
あんまりおかしいんでソースをオリジナルとdiffとったら学習係数が1/100になってたんだがｗｗｗ
え〜何時いじったかな全く記憶にないｗｗｗ
これで学習が進んでくれれば！！

324: 535 2018/04/16(月)23:37 ID:6KBtspgu(2/2) AAS
loss も　entropyも減ってきてる！
これでベストポリシー更新が来れば！！

325: 535 2018/04/17(火)22:16 ID:E16XJnGD(1/2) AAS
ｷﾀ━━━━━━(ﾟ∀ﾟ)━━━━━━ !!!!!
ベストポリシー更新きました！
次の切りのいいところで止めてプレーしてみよう

326: 535 2018/04/17(火)22:34 ID:E16XJnGD(2/2) AAS
それはそうとzen+の発売日が迫ってますね。
金がないから買えないけど情報だけは追っかけてみます。
爆速だといいな。

327: 535 2018/04/18(水)23:48 ID:7NtNWbU1(1) AAS
あとちょっとだけ待とう
終局までの手数も順調に減ってきてるから意味のある手を打ってるんだろう多分
ワクワク

328: 535 2018/04/19(木)20:50 ID:lyvIQrMy(1/2) AAS
打ってみました。
序盤、中盤は棋理の芽生えみたいなものが感じられました。
伸ばせそうなところを伸ばすとか伸ばされそうなところを止めに来るとか
でもわざと負けようとしても５連までは積極的に作りに来るのにそこからパタッと伸ばすのをやめて７連を作ってくれませんｗ
なぜｗ？

でもまあ、希望は感じられました。
もうすこし学習してみます。

329: 535 2018/04/19(木)23:51 ID:lyvIQrMy(2/2) AAS
zen+なかなかよさげですね。
前世代と比べて一割前後性能アップ？

330: 310 2018/04/20(金)09:40 ID:HgLFJ5UM(1) AAS
うーん。AMDはSIMD命令で遅い命令があって、速度低下するかもって
どこかで読んじゃったからなぁ。

こちらは地道に記譜作成しながら学習させてます。
深さ優先で記譜作成すると、分岐が少ない手筋ばかり増えていくので、
幅優先で、同じ深さである程度記譜溜まってから、次の深さとするように
したのですが、空きマス２７からの記譜展開で、時間がかかるようになって
なかなか空き２８マスに行けない。オーダリングの精度が出ていないから
だと思いますが、同時に選択肢も増えてきて、余計時間がかかる感じ。

空き３０マス突破したら、かかる時間の増加率は下がるはずなんだけど。

331: 535 2018/04/20(金)22:59 ID:1YRRGto3(1/3) AAS
もしかして終盤はあえてランダム性を残すことによって学習が進みやすくなるなどの深い理由があるのだろうか？
わからんが。

332: 535 2018/04/20(金)23:02 ID:1YRRGto3(2/3) AAS
それとも序盤は同一局面のデータがたくさん現れるから学習できるけれど
終盤に行くとデータが散らばっちゃって学習できなくなるということだろうか

333: 2018/04/20(金)23:03 ID:1YRRGto3(3/3) AAS
あるいは一線や二線は打たないほうがいいと学習してしまっているがため、７連を作れないのだろうか？

334: 310 2018/04/21(土)20:32 ID:AdkW58BW(1) AAS
オセロは記譜生成させてるだけで暇なので、将棋の事を考えてました。

KKPとかよくわからないし、同じ事をやってもつまらないので、利きを点数化
しようかと考えてみまして、実際の計算方法を考えていたら、自玉周辺と
相手玉に対する利きがKKPなのではないかと思い至ってしまいました。

持ち駒の点数は駒種毎に固定で振られていて、駒同士のぶつかりによる優劣
特に駒交換はmin-Maxにて補間しているのかなと。評価関数自体は意外と単純
な事しか学習していない感じで、探索で補っている部分が大きいように感じます。

こうやって見ると、上手く単純化しているなぁと。
自分で勝手に想像した内容に感心してしまいました。

ただ、これならこれで、自玉KPと相手玉KPの合算で、２駒関係に次元を落とせ
そうではないかと思ってしまいました。まあ、無理なんでしょうけど。

自分がやる上での一番のネックは、オセロの評価関数が点数だったために、
なんちゃって強化学習しかやった事がな点ですね。あと、みなさんライブラリ化
されていて、それに則れば色々な人の考えた高速化・高効率化のネタが利用
できる点で、一から車輪の再発明していては追い付けないよなぁと。

335: 535 2018/04/21(土)20:39 ID:8g8p+RpI(1/2) AAS
ほう、将棋に進出ですか。
将棋AI界はオープンソースが進んでる感じなんですかね。

336: 535 2018/04/21(土)20:50 ID:8g8p+RpI(2/2) AAS
alpha zero のパクりプログラムgithubから丸パクしてきたわけだけど
そろそろちゃんとソース読み解いてみようかな。難しいだろうけど

丁寧な解説がどこかにあればいいんだけどね

337: 535 2018/04/22(日)17:35 ID:QOhFsFyf(1/2) AAS
お、AIが７作った。
いままではわざと負けようとしても勝ってくれなかったけど今回は勝ってくれた。
まだまだ弱いけどもっと学習させてみよう

338: 535 2018/04/22(日)19:13 ID:QOhFsFyf(2/2) AAS
俺も学習見守るだけで暇になっちゃったからなんか始めたいけど
計算リソースが学習にもってかれちゃってるからそこどうするか。

やっぱPC新調か？

グラボも効果あるみたいだし今度はGeforce 1080 Tiとか試してみたいな。

金がないけど。

339: 310 2018/04/22(日)19:48 ID:wf3ukgDl(1) AAS
だよね。自分も脳内妄想で我慢です。
PC新調しちゃうか思いっきり悩み中。

340: 535 2018/04/25(水)20:09 ID:QZIUF0Ri(1) AAS
もっとネットワーク大きくしてみたいな。
でもさらに学習時間がかかると思うと躊躇する。

341: 535 2018/04/27(金)21:32 ID:b1G/gV5U(1) AAS
お、損失が３点台だったのが２点台になった。
いい感じなんじゃないでしょうか？

342: 535 2018/04/28(土)17:38 ID:MUOfiFNK(1) AAS
ジムケラーがインテルに来たとか。
いいCPU作ってくれるならどこでもいいけどね。

343: 535 2018/04/29(日)20:30 ID:mX318X6T(1/2) AAS
序盤は素晴らしい棋理の芽生えを感じるが、いかんせん終盤がなぁ
ほかのアルファゼロクローンも似たような感じなのだろうか？

344: 535 2018/04/29(日)20:50 ID:mX318X6T(2/2) AAS
公式AIともやってみたけど序盤センスは互角以上と感じられる。
実際、必至をかける一歩手前まで行った。
終盤力さえ磨かれればおそらく公式AI越えはある。

345: 535 2018/04/30(月)22:51 ID:qAJqtYoj(1) AAS
学習が1000エピソード突破。
1500が規定値だから最後まで回したいな。

346: 535 2018/05/01(火)21:34 ID:bYHVWZMu(1) AAS
もっとパワー、速度が欲しいな。
こんなことなら最初から1080 Ti いっときゃ良かったかな？

347: 535 2018/05/03(木)10:58 ID:gNd8xJ5s(1/3) AAS
ちょっと思うところがあって、思い切ってネットワーク大きくしてみました。
学習最初からやり直しです。

さて吉と出るか凶とでるか。

348: 535 2018/05/03(木)13:28 ID:gNd8xJ5s(2/3) AAS
ん、ネットワーク構成変えたら学習率もいじらないと上手くいかないのか？
ネットワークでかくしたら学習率は大きくすればいいのか小さくすればいいのか…

349: 535 2018/05/03(木)13:42 ID:gNd8xJ5s(3/3) AAS
ネットワークでかくしたら学習率は小さくするのがいいみたい？

350: 310 2018/05/03(木)20:31 ID:EAR7zekO(1/3) AAS
なんか順調でうらやましい。
俺もやっぱGPU付きのPC買うべかな。

一般的にLRでは、学習率は発散しない限界まで大きくするのが良いらしく、
昔は、最初大きく、試行回数増えるごとにだんだん小さくみたいな事をしてました。
NNではRMSPropとかADAMとかで自動調整する流れだと当時理解していました。
ただ、Googleの論文読むと、普通に学習率固定っぽく読めてしまうんですよね。
強化学習だと学習率固定が良いのかも知れません。

表現力大きいからあんまり問題ない気がするのですが、学習率は小さくすると
学習に時間がかかる代わりに、収束しやすくなります。局所解には陥りやすく
なるのではないかと愚考しますが、強化学習における局所解と、教師付学習に
おける局所解は現象が違うから、よくわかりません。

上下前次 1-新書関写板覧索設栞歴

あと 652 ﾚｽあります
ｽﾚ情報赤ﾚｽ抽出画像ﾚｽ抽出歴の未読ｽﾚ

ぬこの手ぬこTOP 0.016s