【オセロ,将棋】ボードゲーム Part2【囲碁,War】

[過去ﾛｸﾞ] 【オセロ,将棋】ボードゲーム Part2【囲碁,War】 (1002ﾚｽ)
上下前次 1-新
抽出解除ﾚｽ栞

このｽﾚｯﾄﾞは過去ﾛｸﾞ倉庫に格納されています｡
次ｽﾚ検索歴削→次ｽﾚ栞削→次ｽﾚ過去ﾛｸﾞﾒﾆｭｰ

ﾘﾛｰﾄﾞ規制です｡10分ほどで解除するので､他のﾌﾞﾗｳｻﾞへ避難してください｡

14: 310 [sage] 2017/10/20(金) 22:21:51.68 ID:AyXCD9Rq(2/2) AAS
あ、つけ忘れ失礼。

Rollout無し版を試してますが、何故か最近静まっていた終盤読み切りのエラーが（汗
撲滅していたはずなんですが・・・

29: 310 [sage] 2017/10/27(金) 09:09:34.47 ID:InThdIzI(1) AAS
あれれ。また名前が消えていた（汗
お分かりの通り、今のところ名無しは310です。

38: 310 [sage] 2017/10/28(土) 13:51:26.14 ID:rt9aGKVT(1/2) AAS
ネットワーク１段増やすだけで信じられないくらい遅くなりますよね。
最初に十分に深くして学習させて、だんだん減らしながら適切な深さを
求めたいんだけど、この速度低下を考えると、本当に学習できるのか
わからないままだんだん深くしていくしか無いというのが萎える点です。

スレッドについては、リソースモニターで確認するとわかりますね。

ヘッダのどこかに並列化の設定があったはずです。
コンパイラがVSならOpenMPのオプションを設定します。

コンパイラのオプションの方もOpenMPの設定をお忘れなく。

41: 310 [sage] 2017/10/28(土) 23:37:15.46 ID:rt9aGKVT(2/2) AAS
CPU使用率はそんなもんかも。
ヘッダの話、Eigenとごっちゃになってるかも。

強化学習ですが、徐々に進んでいます。もっと早くSMORMS3にしとけば良かった。

終盤読み切りのソート順に評価値を使用しているのですが、目に見えて速度が
上がってきています。また自己対局の精度も上がってきたようで、遡りチェックで
３０手まで何度か行きました。逆に記譜収集の方は、スコアのばらつきが無くなって
きて、記譜的に良い事なのか不安。

というわけで、手ごたえを感じつつ、現状に合わせて若干設定変更。

46: 310 [sage] 2017/11/01(水) 01:06:46.90 ID:FDjtq7R7(1) AAS
バラして部分づつ学習する手もあるかも。
あ、元データはランダムに並び替えた方が良いですよ。
わかってると思いますが。

こちらは、しばらく強化学習していたら、それなりに学習が進んだ結果、
対戦相手側の手のばらつきが足りなくなって、局所解に陥ってた感じ。
急きょばらつきを広げて学習再開させたところです。

バリューの方は地道に損失が減っているんだけど、ポリシーの損失が
増えてきた。ポリシーはsigmoidがあるので、ウェイトが絶対値でとてつも
なく大きくなって、なかなか修正しきれない状況になってるかもしれない。

一旦リセットすべきか悩み中。

49(1): 310 [sage] 2017/11/01(水) 20:13:34.50 ID:A50hx8cn(1) AAS
たぶん、損失の減り方は最初はゆっくりだと思います。
「特徴抽出しながら」誤差修正していってますから。

僕と同じ悩みですね。
ネットワークの大幅簡素化の結果、最終的に線形回帰まで戻ってしまいました（汗
もっとも、オセロはBuroさんの特徴抽出があったから線形回帰まで戻れたのですが。

スリッパとGPUが呼んでます（笑）
でも、もしかしたらAMDよりINTELの方が良いかもしれない。
高いけど。

63: 310 [sage] 2017/11/05(日) 01:04:52.45 ID:BooXEMcV(1/4) AAS
同じ道をたどってますね（汗

こちらは、MCTSで構築したツリーを使って、完全読み切りが速くならないか
試していますが、謎のバグのオンパレードでかなり戦線縮小。一応、それなり
に動作するレベルまで撤退してテストしていますが、なんとなく速度アップは
している模様。

ただ、バグの過程で置換表データに変なものが混じったらしく、学習させると
異常終了になります。記譜は１７００件くらい集まっているので、一旦全消去して
しまいました。

64: 310 [sage] 2017/11/05(日) 17:40:16.26 ID:BooXEMcV(2/4) AAS
ツリー探査がおかしくなる状態を確認。
けど、カーっとなって即座に終了してしまったので、詳細判明せず。
なんとなく症状は見えたので、しばらく目視デバッグします。

というか、これにより直近に遡りチェックやった記譜の正確さに不安が生じてます。
やけに遡りチェックが簡単に通るなぁと思っていたけど、これが原因かもしれない。
というわけでタイムアウトまで行った記譜を５０件ほど再チェックしなきゃならん。
全部で５４時間くらいかかる予想。今週はまるまるパーになりそうです。

その分、良質な置換表データが補えるんだけど。

65: 310 [sage] 2017/11/05(日) 17:50:28.12 ID:BooXEMcV(3/4) AAS
計算間違い。全部で８０時間くらいだorz

67: 310 [sage] 2017/11/05(日) 23:36:09.29 ID:BooXEMcV(4/4) AAS
ぬがーーーーーーーーーーーー！
バグって、記譜データがすべて上書きされて消えてしまったorz

ツリー利用探索のデバッグ用にput処理にエラートラップ仕掛けた時に
やっちゃいました。

学習済のデータが残っているのだけが救いだ・・・。
ここから記譜作ると、そこそこ精度が良い記譜になるはずなのが救いだ…。

70: 310 [sage] 2017/11/07(火) 15:06:28.24 ID:8EOI4Ksy(1) AAS
>>68

68(1): 535 [sage] 2017/11/06(月) 20:40:50.16 ID:opZqsFg1(1/2) AAS
バックアップ取れしｗ
一回コード全飛ばししてるでしょうに。

おっしゃる通りですorz

評価関数の方は要所要所でコピー残していたのに、記譜はなめてました。

>>69

69(1): 535 [sage] 2017/11/06(月) 21:50:55.01 ID:opZqsFg1(2/2) AAS
アルファ碁Zeroの手法まねできないかなぁ
でも論文読んでもわかんねぇだろうなぁ
ていうかGoogleがライブラリとして公開してくんねかなぁｗ（他力本願）

ライブラリ公開されても、実行できる環境構築の方がハードル高いかなと。

論文はいまだに読んでいませんが、rollout無し（バリューネットに１００％依存）
はうまく機能しています。圧倒的にツリー探索性能がアップしているため、評価関数
の精度の低さを、力技でカバーしている感じですが。

とはいえまだ３０手以前の評価値はでたらめに近い状態なので頻繁に間違えます。
強化学習でここまで治るのにどれくらいの時間がかかるのかは不明。後ろの方の
精度が上がらないと、前の方は間違った学習を繰り返すことになりますので。

後ろの方の評価関数がそこそこまともになったので、読み切り処理や遡りチェックの
時間はかなり早くなりました。タイムアウト１時間設定で時々空白３１マスまで遡れる
ようになってきています。

75: 310 [sage] 2017/11/12(日) 22:19:15.47 ID:Uu7EAeJ9(1/2) AAS
しばらく出張してました。

終盤DBといえばチェスですかね。
遡りチェックは詰みを回避できるかチェックになるのかなぁ。
オセロだと何にも考えずに終局の石差でやっちゃうので。
言われてみて気付いたけど、ゲームの種類によって結構違う考えが必要なんですね。

最近、藤井四段に触発された友人の影響で将棋を始めました。
負けたくないので、３手詰め問題解いていると、どうやってプログラムしようか
とか雑念が沸いてきてしまいます（汗

76: 310 [sage] 2017/11/12(日) 22:31:15.55 ID:Uu7EAeJ9(2/2) AAS
MCTSのツリーを使ったオーダリングは、たぶんバグが取れたと思います。
が、なんか別のところで意味不明の動作をして、速度が出せませんorz

また、テストの際に半日経っても終了しなかった盤面を使ってしまい、
何度もやり直しをしていたために、強化学習が滞ってしまいました。

これ曲者過ぎるので、今夜一晩解かせてパスしたい。
朝までにとけなかったらどうしよう。

79: 310 [sage] 2017/11/14(火) 00:31:34.47 ID:ZeqYQGfh(1/2) AAS
重い局面は６〜７時間くらいかけてクリアしました。

MCTSの速度が出ない問題は、解消というか、原因不明のまま別の方法で回避。
parallel_forの問題かと思っていたけど、shared_ptrの方の問題だったっぽい。
遡りチェックの時、PVは探索せずに、その他の手をチェックしていくので、他の手
にも探索を振り向けたかったのですが、単純に１手先の局面からUCTを実行すると
１０万プレイアウトくらいで突然数十秒宇固まったようになって、それを何度も繰り
返す結果、まったくツリー探索が進まないという症状です。UCT探索の方に１回目
だけランダムに着手する関数を作って、そちらを呼び出したところ、固まらなくなり
ました。

ようやくまともにツリーをオーダリングに再利用できるようになったのですが、要所
要所で極端に探索が遅くなって、逆に時間がかかります。
今しばらく調査が必要な模様。

82: 310 [sage] 2017/11/14(火) 23:35:06.48 ID:ZeqYQGfh(2/2) AAS
MCTSのツリーを使用する奴は、どうも挙動が変なのですが原因不明なので後回し。

アルファ碁Zeroでは、強化学習に軽い探索を取り入れたというのを見かけたので、
想像で真似してみる事にしました。

序盤はランダム着手。そこから５手読みの中盤探索を入れて、残り１０手完全読み。
評価関数はValueを使用。たぶん、学習はマシになると思います。

もっと精度が上がったら、３手読みにしてスピードアップしたいです。
今はまだ結構ボロボロなので、これで我慢。

84: 310 [sage] 2017/11/17(金) 23:19:33.73 ID:0nQ3gtJu(1) AAS
浅い探索付き強化学習は結構有効に機能しているようです。
学習の速度が明らかに上がったし、精度も良くなっているようで、テスト盤面の
誤差が結構減りました。ただ、そろそろ飽和したか、局所解に入ったような印象。

で、色々考えたあげく、線形回帰ではこの辺が限界かもしれないという事で、
評価関数をmlpにしてみました。valueの方がうまく学習しなかったので、回帰型
ではなくsigmoid出力にして０〜１の数字を石差に変換かけてます。
強化学習は、回帰版の評価関数の結果をそのまま利用してます。

そろそろそこそこ使えそうな誤差になってきたようだし、強化学習は自分に対して
行った方が良いはずなので、全面的にmlpに移行しちゃおうか悩み中。

86: 310 [sage] 2017/11/18(土) 20:23:37.47 ID:TwYSqk9E(1) AAS
やっぱスピードは万能ですよねぇ。

モンテカルロですが、評価関数ができたら、アルファ碁Zero方式で（汗
緩やかに読み筋を絞り込みながら、有望な手を深読みする形になります。

mlp版を試していますが、中間層を６４にしたら、学習は良いのですが、
モンテカルロが劇遅になりました…。今、中間層８で強化学習していますが、
なんか早々と線形回帰と同様に飽和状態になってしまった模様。

速度的には８が限界な気がする。

途中まで線形回帰の強化学習記譜で学習させていて、同じような癖がついて
しまったのかもしれないので、今晩一晩まっさらから学習させてみようかな。

87: 310 [sage] 2017/11/19(日) 15:23:45.94 ID:O7LFJYCP(1) AAS
あちゃー。

学習がいまいち変に感じていたのは、これは恥ずかしくて言えないレベルの
仕様ミスでした。あれ？と思って、良く考えずに念のため追加したコードが
数か所。ことごとく悪さしていました。

数日損をしたなぁ。

88: 310 [sage] 2017/11/20(月) 22:18:43.00 ID:/GG7G9SR(1/2) AAS
ぎゃー。

評価関数に入れるデータの変換テーブルに間違い見つけた。
評価関数がいまいち収束しなかったのはこれが原因かも。

もともとの線形回帰版の時代から隠れていたものなので、
線形回帰版も計算し直しです。

というわけで、数日パーどころか１か月単位でパーですorz

89: 310 [sage] 2017/11/20(月) 22:23:13.40 ID:/GG7G9SR(2/2) AAS
申し遅れましたが、これにて評価関数は最初から計算しなおしです。

幸い、記譜が６０件＋遡り時の訂正前分１００件ほどの合計１６０件と、
置換表から拾ったものが１０万件単位でありますので、最近得ていた
感触だと、これをベースに強化学習で補えそうだというのが、
唯一の救いです。

93: 310 [sage] 2017/11/23(木) 21:17:40.34 ID:A/JPNP9D(1) AAS
アルファ碁ゼロの論文はまだ読んでませんが、アルファ碁の正常進化ですよ。
自分はDeep Learningのところは「しかと」しているので、MCTSの進化形として
とらえてみると、まあ想像ですうが、当たり前の事を当たり前にやっただけかなぁ
と思っています。

それより大問題が…
また、評価関数の入力データ作るための変換に間違いを見つけてしまいました。
前回どころではない大きな間違いで、良くこの評価関数でそこそこ収束していたなぁ
というレベルの間違いでした。ソース喪失して書き直していたところから仕込まれて
いたんだと言う事で。

なんか入力いい加減でもそこそこな評価関数ができちゃう事にびっくり。
今度こそ大丈夫と信じて・・・

97: 310 [sage] 2017/11/25(土) 00:38:47.57 ID:Dx7Nr2Ji(1/3) AAS
もういっちょ間違い発見orz

ソース喪失後焦って数日でパーッと書いて、そのまま学習させて、そこそこ
収束していたから放置していたのを思い出してきた。今度は全部チェックした。

しかし、いい加減な評価関数でも、結構収束していたってのが凄いな。
そこはかとなく表現力不足を感じていたのはその辺が原因かなぁ。

記譜と置換表データで１から学習させるのに、一気に５００回学習させたら、
思いっきり過学習になってしまった。現在、強化学習で解きほぐし中。
回帰の方はほぼほぐれたけど、MLPの方はまだ時間がかかりそう。

98: 310 [sage] 2017/11/25(土) 00:54:30.38 ID:Dx7Nr2Ji(2/3) AAS
>>95

95(1): 535 [sage] 2017/11/24(金) 23:04:07.44 ID:QoCCcG2C(2/3) AAS
結局、仮に大金つっこんでスレッドリッパーとか買ったとしても到底無理ってことじゃん。
まあ、まったくの無駄になるとは思わないけど。

某スレをウォッチしていたら、前から気になっていた事を指摘していた人がいた。
スレッドリッパーはAVX2命令の中に遅いものがあって、一つ下のインテルの奴の
方が、この手の計算は速いらしい。

あと、GPUをどう使うかだね。
けど学習だけならTensor Flowにやらせちゃえばよいのだろうけど、学習データを
使うところまで行ったら、GPU使った非同期並列処理とか考えなきゃならないし。
CUDAだっけ？GPU専用にコード書かないといけないし。

なんか道筋というか、そこまでやってる自分の姿がイメージしきれない（汗

その前に詰将棋を解くプログラム開発してそう（笑）

100: 310 [sage] 2017/11/25(土) 01:26:03.49 ID:Dx7Nr2Ji(3/3) AAS
コンピュータ囲碁か何かのスレです
この１か月くらいのカキこのどこかにありました（汗

104: 310 [sage] 2017/11/26(日) 13:10:07.09 ID:kav93n5u(1/2) AAS
ソース喪失以外の時は、結構コピペしていますよｗ

書き直しの時は、たいていあちこちで使用しているクラスの構造変え
たりする類の後戻りが難しい変更加える時なので、中の関数は一緒です（汗

新しい評価関数は、だいぶ落ち着いてきましたが、遡り２８手くらい
でタイムアウトになります。並べ替えに使っているので精度が上がる
と速度が速くなるのです。前は２９手、調子が良い時は３０手くらい
まで行っていたので、まだ精度が追い付いていないみたいです。

これでしばらく強化学習の具合見ながら待つだけになっちゃいました。

５×５の囲碁くらいならCNNで評価関数作れないかなぁとか、詰将棋を
作るならBitboardを２バイトに拡張しなきゃとか、悪い虫が疼き始めて
います。

上下前次 1-新書関写板覧索設栞歴

ｽﾚ情報赤ﾚｽ抽出画像ﾚｽ抽出歴の未読ｽﾚ AAｻﾑﾈｲﾙ

ぬこの手ぬこTOP 0.045s