[過去ログ] 【オセロ,将棋】ボードゲーム Part2【囲碁,War】 (1002レス)
1-

このスレッドは過去ログ倉庫に格納されています。
次スレ検索 歴削→次スレ 栞削→次スレ 過去ログメニュー
331: 535 [sage] 2018/04/20(金) 22:59:48.32 ID:1YRRGto3(1/3) AAS
もしかして終盤はあえてランダム性を残すことによって学習が進みやすくなるなどの深い理由があるのだろうか?
わからんが。
332: 535 [sage] 2018/04/20(金) 23:02:21.21 ID:1YRRGto3(2/3) AAS
それとも序盤は同一局面のデータがたくさん現れるから学習できるけれど
終盤に行くとデータが散らばっちゃって学習できなくなるということだろうか
333: 名前は開発中のものです。 [sage] 2018/04/20(金) 23:03:29.26 ID:1YRRGto3(3/3) AAS
あるいは一線や二線は打たないほうがいいと学習してしまっているがため、7連を作れないのだろうか?
334: 310 [sage] 2018/04/21(土) 20:32:42.81 ID:AdkW58BW(1) AAS
オセロは記譜生成させてるだけで暇なので、将棋の事を考えてました。

KKPとかよくわからないし、同じ事をやってもつまらないので、利きを点数化
しようかと考えてみまして、実際の計算方法を考えていたら、自玉周辺と
相手玉に対する利きがKKPなのではないかと思い至ってしまいました。

持ち駒の点数は駒種毎に固定で振られていて、駒同士のぶつかりによる優劣
特に駒交換はmin-Maxにて補間しているのかなと。評価関数自体は意外と単純
な事しか学習していない感じで、探索で補っている部分が大きいように感じます。

こうやって見ると、上手く単純化しているなぁと。
自分で勝手に想像した内容に感心してしまいました。

ただ、これならこれで、自玉KPと相手玉KPの合算で、2駒関係に次元を落とせ
そうではないかと思ってしまいました。まあ、無理なんでしょうけど。

自分がやる上での一番のネックは、オセロの評価関数が点数だったために、
なんちゃって強化学習しかやった事がな点ですね。あと、みなさんライブラリ化
されていて、それに則れば色々な人の考えた高速化・高効率化のネタが利用
できる点で、一から車輪の再発明していては追い付けないよなぁと。
335: 535 [sage] 2018/04/21(土) 20:39:59.86 ID:8g8p+RpI(1/2) AAS
ほう、将棋に進出ですか。
将棋AI界はオープンソースが進んでる感じなんですかね。
336: 535 [sage] 2018/04/21(土) 20:50:54.10 ID:8g8p+RpI(2/2) AAS
alpha zero のパクりプログラムgithubから丸パクしてきたわけだけど
そろそろちゃんとソース読み解いてみようかな。難しいだろうけど

丁寧な解説がどこかにあればいいんだけどね
337: 535 [sage] 2018/04/22(日) 17:35:27.70 ID:QOhFsFyf(1/2) AAS
お、AIが7作った。
いままではわざと負けようとしても勝ってくれなかったけど今回は勝ってくれた。
まだまだ弱いけどもっと学習させてみよう
338: 535 [sage] 2018/04/22(日) 19:13:47.98 ID:QOhFsFyf(2/2) AAS
俺も学習見守るだけで暇になっちゃったからなんか始めたいけど
計算リソースが学習にもってかれちゃってるからそこどうするか。

やっぱPC新調か?

グラボも効果あるみたいだし今度はGeforce 1080 Tiとか試してみたいな。

金がないけど。
339: 310 [sage] 2018/04/22(日) 19:48:13.41 ID:wf3ukgDl(1) AAS
だよね。自分も脳内妄想で我慢です。
PC新調しちゃうか思いっきり悩み中。
340: 535 [sage] 2018/04/25(水) 20:09:35.29 ID:QZIUF0Ri(1) AAS
もっとネットワーク大きくしてみたいな。
でもさらに学習時間がかかると思うと躊躇する。
341: 535 [sage] 2018/04/27(金) 21:32:10.80 ID:b1G/gV5U(1) AAS
お、損失が3点台だったのが2点台になった。
いい感じなんじゃないでしょうか?
342: 535 [sage] 2018/04/28(土) 17:38:12.12 ID:MUOfiFNK(1) AAS
ジムケラーがインテルに来たとか。
いいCPU作ってくれるならどこでもいいけどね。
343: 535 [sage] 2018/04/29(日) 20:30:57.65 ID:mX318X6T(1/2) AAS
序盤は素晴らしい棋理の芽生えを感じるが、いかんせん終盤がなぁ
ほかのアルファゼロクローンも似たような感じなのだろうか?
344: 535 [sage] 2018/04/29(日) 20:50:13.18 ID:mX318X6T(2/2) AAS
公式AIともやってみたけど序盤センスは互角以上と感じられる。
実際、必至をかける一歩手前まで行った。
終盤力さえ磨かれればおそらく公式AI越えはある。
345: 535 [sage] 2018/04/30(月) 22:51:47.16 ID:qAJqtYoj(1) AAS
学習が1000エピソード突破。
1500が規定値だから最後まで回したいな。
346: 535 [sage] 2018/05/01(火) 21:34:25.66 ID:bYHVWZMu(1) AAS
もっとパワー、速度が欲しいな。
こんなことなら最初から1080 Ti いっときゃ良かったかな?
347: 535 [sage] 2018/05/03(木) 10:58:16.57 ID:gNd8xJ5s(1/3) AAS
ちょっと思うところがあって、思い切ってネットワーク大きくしてみました。
学習最初からやり直しです。

さて吉と出るか凶とでるか。
348: 535 [sage] 2018/05/03(木) 13:28:58.30 ID:gNd8xJ5s(2/3) AAS
ん、ネットワーク構成変えたら学習率もいじらないと上手くいかないのか?
ネットワークでかくしたら学習率は大きくすればいいのか小さくすればいいのか…
349: 535 [sage] 2018/05/03(木) 13:42:41.42 ID:gNd8xJ5s(3/3) AAS
ネットワークでかくしたら学習率は小さくするのがいいみたい?
350: 310 [sage] 2018/05/03(木) 20:31:46.75 ID:EAR7zekO(1/3) AAS
なんか順調でうらやましい。
俺もやっぱGPU付きのPC買うべかな。

一般的にLRでは、学習率は発散しない限界まで大きくするのが良いらしく、
昔は、最初大きく、試行回数増えるごとにだんだん小さくみたいな事をしてました。
NNではRMSPropとかADAMとかで自動調整する流れだと当時理解していました。
ただ、Googleの論文読むと、普通に学習率固定っぽく読めてしまうんですよね。
強化学習だと学習率固定が良いのかも知れません。

表現力大きいからあんまり問題ない気がするのですが、学習率は小さくすると
学習に時間がかかる代わりに、収束しやすくなります。局所解には陥りやすく
なるのではないかと愚考しますが、強化学習における局所解と、教師付学習に
おける局所解は現象が違うから、よくわかりません。
351
(1): 310 [sage] 2018/05/03(木) 20:37:19.91 ID:EAR7zekO(2/3) AAS
こちら、例によってひたすら分岐付き記譜を作成しています。
空きマス27の所(完全読みとしては26)のところから、計算時間が案の定すごく
かかるようになってしまって、遅々として進まなくなりました。

最後の手段でとっておいた、UCT探索で仮PV作成し、それでmtd(f)にて評価値を
迅速に確定して、その評価値で正しいPVを求めるという流れにしたところ、恐らく
数倍程度に高速化され、それによって記譜が集まり正確になる事で、評価関数の
精度が上がって、仮PVが正確になりという好循環に、ようやく入る事ができました。

ただ、それでもまだ時間はかかるというか、今空きマス28まで持っていったら、
また時間がかかる地獄に入りそう。最低でも空きマス30までは持っていきたい。

つか、待っている時間が長い…セカンドPCが欲しい。
352: 310 [sage] 2018/05/03(木) 20:41:41.51 ID:EAR7zekO(3/3) AAS
>>351
>数倍程度に高速化され

あくまで仮PVが数手分合っている時の話で、仮PVが間違っていると、
むしろ遅くなる可能性があります。

あと、一つの局面に対し、最善手が複数あるケースでは、例えば最善手
が2つあると2倍程度時間がかかるという問題があるのは認識していて、
対策は可能なのですが、そうするとバグった時にβカットのエラーを吐か
ないという恐ろしい状態になってしまうので躊躇しています。
353: 310 [sage] 2018/05/04(金) 19:57:24.12 ID:5CQB8Di3(1) AAS
世界コンピュータ将棋選手権の2次予選までで強さをみせつけている
T.N.K(通称たぬき)ですが、DL勢にして高速評価関数という事なので
アピール文書を見てみました。

これ、CNNではなく、全結合のDeep Networkの模様。追加で論文も
出ているので、見たところ5層のMLPです。

入力層に玉との2駒関係を使っていて、そこは計算量が多いので、
ここだけ差分計算で高速化しているとの事。自分は行列をEigenに
任せちゃってるので差分計算していませんが、オセロでも結構使え
るはず。

もう一度オセロをMLPに拡張したくなってきた(汗
354: 535 [sage] 2018/05/07(月) 20:19:04.83 ID:m+uVPKyG(1) AAS
ネットワーク大きくすると学習が収束する確率下がるんですかね?
なんか学習がうまく進んでないようです。
355: 535 [sage] 2018/05/08(火) 00:21:37.96 ID:VKk6NsC2(1) AAS
もしかして学習率だけでなく、ほかのパラメータにも手を加えなければならないってことですかね?
1-
あと 647 レスあります
スレ情報 赤レス抽出 画像レス抽出 歴の未読スレ AAサムネイル

ぬこの手 ぬこTOP 0.012s