【オセロ,将棋】ボードゲーム【囲碁,War】

[過去ﾛｸﾞ] 【オセロ,将棋】ボードゲーム【囲碁,War】 (1002ﾚｽ)
上下前次 1-新

このｽﾚｯﾄﾞは過去ﾛｸﾞ倉庫に格納されています｡
次ｽﾚ検索歴削→次ｽﾚ栞削→次ｽﾚ過去ﾛｸﾞﾒﾆｭｰ

515: 460 2016/08/27(土)13:15 ID:ct+QEGYU(2/3) AAS
学習プログラムのバグを直して再学習させたWZebraとの対局結果ですが、芳しくないです。。
棋譜生成で次善手を選ぶ時、打った後の7手読み（対局が8手読みなので）評価値で全ての手をソートしてから
2番目を選んでいるのですが、評価誤差を全く気にせずに選んでいました。
最善手が+10でも次善手が-4とかいう局面も結構あるので、そういった誤差が大きい手を選んでしまうと棋譜の質が低下します。
なので、最善手と次善手との誤差が-2以下の場合のみ次善手を打つようにしました。
その代わり85%で1回打つという処理を単に5%で打つように変えています。
これでなんとか中盤が強くなればいいですが・・・

516: 460 2016/08/27(土)13:18 ID:ct+QEGYU(3/3) AAS
WZebra24手読みBOOK無し評価誤差なしとの対局結果

ゼブラは評価誤差がEdaxやMasterReversiに比べて大きいので、本来負けちゃいけないんですよね。。
実際50万棋譜計画のやつで学習させた場合はほとんど勝っていました。(負けても-8とかはありえない)

牛定石[f5f6d6]

黒持ち：+2
白持ち：+0

酉フック[f5d6c3d3c4f4c5b3c2e3]
黒持ち：+8
白持ち：-8

金魚[f5d6c3d3c4f4c5b3c2e6]

黒持ち：-2
白持ち：+4

FJT[f5d6c3d3c4f4c5b3c2e6]
黒持ち：-4
白持ち：+2

コンポス[f5d6c3d3c4f4f6]
黒持ち：-2
白持ち：-6

517(1): 2016/09/01(木)22:33 ID:PkLGbL4G(1) AAS
マイナーゲームで良質の棋譜が大量にない場合、どうやって学習させればいいんだろう？

518: 2016/09/02(金)09:47 ID:+DjGOwAN(1) AAS
事前学習じゃなくて、強化学習な手法を試したら良いのではないかな。
何をどうすれば良いのか、俺はわからんけど。

519: 2016/09/03(土)00:54 ID:lICUKSF2(1/3) AAS
うおお線形回帰とか最小二乗化とかわかんねぇぇ

520(1): 2016/09/03(土)20:21 ID:lICUKSF2(2/3) AAS
とりあえず自己対戦棋譜が１０００局集まりそう。
まだ足りないかな？
ここからどう学習させればいいのか…

521: 2016/09/03(土)21:00 ID:DJdWXbUx(1) AAS
自分も機械学習とか興味あって細々作ってるけど、とても難しい
学習以外の部分も難しくて辛かったけど、学習はなかなか思い通りにするのに苦労する

とりあえずオンライン学習ってので、自分なりに色々やってみたけど
やっとちょっと上手くいき始めたかなってところ
ミスって学習やり直しとか何回もしてしまった

522: 2016/09/03(土)22:28 ID:lICUKSF2(3/3) AAS
今ブラッドリーテリーのモデルとやらを調べてる
数式ムズイＴ△Ｔ

523(1): 460 2016/09/04(日)01:59 ID:f4dqEnZp(1/3) AAS
>>520
オセロは今でこそ強いソフト同士の棋譜が手に入りますが、
初期は人が対局した棋譜(ISOなど)を残り十数手のみ修正して学習させていたようです。

マイナーゲームが何かによりますが、オセロみたく終盤で神のような読み切りが出来る場合は
自己対局の教師あり学習で適当なモデルでもかなり強くすることはできるかと思います。

524: 460 2016/09/04(日)02:00 ID:f4dqEnZp(2/3) AAS
レス番号間違えました。。>>523は>>517宛てです。。

525: 460 2016/09/04(日)02:14 ID:f4dqEnZp(3/3) AAS
自己対局中は暇なので、GUIの拡大縮小対応に手を出してみようと思ってドツボにはまりました。。
C#って描画ほんと遅いですね。。フルスクリーンにするとリスケールも含めて150msecぐらいかかります。
1024x768くらいだと50msecなのでギリギリ許容範囲内かなぁ。

あとGUIの実装に合わせて定石の変化度をツールバーから選べるよう実装していたのですが、
変化度を上げると着手時になぜか頻繁に落ちることが判明。
調べると、定石の木構造を作る処理に壮大なバグがあり、
３０万近くある定石のうち１万くらいしか読み込めておらず、
リストも頻繁に上書きされてめちゃめちゃ状態でした。バグというか実装になっていないレベル。。
変化度を弄った時の処理をほとんどテストしなかった数年前の自分を殴りたい。。
かなり昔のコードなので、もう修正をあきらめて再設計して一新しているところです。

526(1): 310 2016/09/04(日)17:00 ID:WEaBeSKk(1) AAS
実際、開発中ってアドレナリン出てるから、ほとんどノーテストで行けるところまで
行っちゃって後で何やってるの俺？って事がしばしば（汗

というかここ数日も、非常につまらない確認漏れというか、毎回間違うswitch文でバグ
出しているのに気づかずに、これはメモリーリークか？それとも計算式が間違ったのか？
みたいな状態になっていました・・・。

さて、今いじってるディープラーニングの仕組みは、かなり汎用性持たせて作ってます。
あまりに収束具合が悪いので、試しに、Buroさんモデルにしてみました。１層の活性化
関数無しにして、入力プログラムを流用するだけなので簡単です。でも、なかなか収束
しない。そこで、過去にどこまで収束したのか、残ってるログを探したところ・・・実際、
同じような感じ（１σ＝約３．５石）でした・・・つまり、なんかできてると言えばできているし
これで満足かといえば満足ではなしと。また、なまじデバッグでまじまじ評価値を見ちゃっ
たため、これで本当に使えてるのか？状態です。

で、ミイラ取りがミイラになって、ディープラーニングの学習係数の最適化手法とか、
学習効率向上の方法を色々実装してました。勾配ノイズなる手法も入れてみました。
一体自分はどこに向かっているのだろうって状態です。

527: 460 2016/09/05(月)19:53 ID:5Av5ahUz(1/2) AAS
そういえば散々オセロソフトを開発しておきながらネット対戦のオセロを一回もやった事ないなと思い・・・
やってみると案外勝ててしまいました。
この形は有利不利とかイメージだけで打っていましたが、、人間のパターン認識も結構優秀ってことですかねｗ

528: 460 2016/09/05(月)20:11 ID:5Av5ahUz(2/2) AAS
>>526
ディープランニングはやはりなかなか曲者のようですな。
こちらも終盤の評価値が悪いところはよく見えて良いところは悪く見えるという平均化が起こっていてやばいです・・・
まずは次善手の割合を調整したのでどうなることやら。。
というかもうランダム数手をやめて、引き分けオープニングからの棋譜生成を重点的にやった方がいいのか考え中です。

529: 2016/09/05(月)20:52 ID:A3E5Chzv(1) AAS
学習始めたら速いPCが欲しくなってしまった
結果が出るまで時間掛かるなあ

530: 310 2016/09/05(月)22:33 ID:KkVISbKe(1/2) AAS
上に書いた通り、線形回帰はディープラーニングに内包される計算手法ですので
（実際に最急降下法とバックプロパゲーション部分以外の計算式はほぼ同じ）、
学習率の設定にディープラーニングの最新の手法が使えるんじゃないかと思います。

学習率を外から与えるのではなく、初期値だけ与えて、後は誤差の具合を管理して
動的に変える。しかも、各重み毎に個別に学習率を変える。という発想です。

参考）
外部ﾘﾝｸ:postd.cc
外部ﾘﾝｸ:qiita.com
※）数式で、ただの変数のように書いてますが、行列だったりベクトルだったり解読が必要です

自分はこの中で一番新しいSMORMS3を使用してみたところ、モーメンタム法の１０倍
以上の速さ（学習回数）で収束するようになったと感覚的に感じています。大体３０〜
５０回も回せば収束してしまう感じです。実装＆テストだけして確認していませんが、
AdamやRMSpropでもそん色ない程度には速くなると思います。

でも、早いPCで解決できるんなら、それに越した事はありませんねｏｒｚ

531: 2016/09/05(月)22:36 ID:omFelghI(1) AAS
remi coulomの書いたMM法のコード見つけたが難しくて読めないorzorzorz
頑張って読むか

532: 310 2016/09/05(月)22:41 ID:KkVISbKe(2/2) AAS
いかなディープラーニングでも評価関数をいきなり作るのは厳しい気がしてきてます。

ここはアルファ碁の学習の仕方にならって、最初は次の１手を学習させてみようかと。
で、今までは頭でわかったつもりになっていた、多クラス分類問題を調べてみると、
Softmax関数の微分（バックプロパゲーションで必要）がわからない事にあらためて
気が付きました。

幸い、Softmax関数の定義があるひな形プログラムがあったので、これから解読です。

人さまのプログラムを見ると、自分がいかにC++を知らないのか、思い知らされますorz

533: 460 2016/09/07(水)01:48 ID:UfwPrMcb(1/3) AAS
自己対局ですが、８手読みの２０マス空き完全読み設定だと、２日で大体２０万局終わることが分かりました。
ここまで速いと１０手読みの２２マス空き読みにランクアップしてみたいところ。。
体感だと1/3くらい遅くなっているのですが、２２マス空き読みだと偏りもひどくて、
１〜２日やってみないとなんとも言えない感じです。
２日で７万局程度終えられるなら、それでのんびりやろうかと思います。

534(1): 460 2016/09/07(水)03:02 ID:UfwPrMcb(2/3) AAS
今しがた動かし中ですが、４００局完了まで１６〜１７分でした。
１時間で１４００局程度できそうなので、１か月で１００万局くらい行けそうです。
とりあえずこのまま１００万局集めようと思いますｗ

あと、初手ラムダムをやめて最悪手が数％程度で打つよう、評価値によって着手確率を調整しました。
最悪手の絶対値の１．２倍をそれぞれの評価値に加算した後の総和を使って
それぞれ加算した評価値を除算という古典的な方法ですが・・・
この方法だと絶対値が０に近いと悲惨な事が起こるので、絶対値は＞＝４にしています。

535(227): 2016/09/07(水)23:27 ID:4MEE20eO(1) AAS
誰かヘルプ！
このページのmm.tar.bz2の使い方わかる人いない？

外部ﾘﾝｸ:www.remi-coulom.fr

makeしてexe作るところまではできたんだけど
README通りにmm.exe < input.dat > output.dat
ってやってもoutput.datが空ファイルにしかならない。

536(1): 460 2016/09/07(水)23:57 ID:UfwPrMcb(3/3) AAS
>>535
とりあえずmm.exe < input.datでコンソールに何が出てきてるか見た方が良いかも。
Cygwinでやるとこんなの出てきました。

$ ./mm < input.dat
..
Games = 2
Feature1 -0.89588 2.44949 0.0285792
Feature2 -0.867301 2.38048 0.15838
Feature2 -0.708921 2.0318 0.0737065
Feature2 -0.635214 1.88743 0.0358307
Feature2 -0.599384 1.821 0.0187057
・・・（略）・・・
0 1.49416
1 1.21426
2 0.586193
3 0.668003
4 2.13451

outputは下５行だけが出力されるみたいです。

537(1): 535 2016/09/08(木)00:10 ID:/oQCQhP8(1/2) AAS
>>536
おお、返信ありがとうございます。
mm.exe < input.datやってみましたが何も出ないです。
もしかしてinput.datはなにか編集しないといけないのでしょうか？

538(1): 535 2016/09/08(木)00:16 ID:/oQCQhP8(2/2) AAS
すいません。
makefileからコンパイルオプションを取り除いたところ結果が出力されました。
-O3がダメなのかなぁ。

ともかく、ありがとうございました。

539: 460 2016/09/08(木)00:21 ID:LcwQkLYi(1/2) AAS
>>537
input.datは全く編集せずにやりました。
Cygwin64bitだと動くのですが、環境によっては動かないんですかね・・・
gcc-5.4.0でビルドしましたが、コンパイラのバージョンの差異も原因かもです。

540: 460 2016/09/08(木)00:23 ID:LcwQkLYi(2/2) AAS
>>538
動いてよかったです。
最適化が悪さしていましたか。。-O1程度の方がいいかもですね。

541: 460 2016/09/10(土)21:06 ID:FA2ccDEd(1) AAS
>>534の読みを深くさせた自己対局棋譜ですが、１５万程度集まったので
無理やり学習してWZebraと対局させてみたところ、黒持ちで＋１２、白持ちで＋２でした！
次善手や序盤ランダムの考慮と読みを深くした効果が現れてて安心しました。。１００万達成した時の結果が楽しみです。

542(1): 460 2016/09/11(日)09:03 ID:UepiTkRD(1/2) AAS
ついにBOOKの読み込みとアルファベータによる手の選択を実装できました。
まだ最善しか着手できないので、誤差率によるランダム着手も実装しようと思います。
ゼブラのExtra-Bookをそのまま使っているので、ゆくゆくは自力で構築できるシステムを
考えたいところ。。

543(1): 2016/09/11(日)11:41 ID:dMHrH3w2(1) AAS
>>542
やっぱり最終目標は完全解析なんですか？

544: 460 2016/09/11(日)15:25 ID:UepiTkRD(2/2) AAS
>>543
いえ、さすがにそこまでは・・・ｗ
Edaxの作者が完全解析を先行してやってるみたいですし、そこは任せようかなと。
最終的にEdaxやMasterReversiと同等の評価関数やBOOKを作成できるレベルまで持っていきたいです。

上下前次 1-新書関写板覧索設栞歴

あと 458 ﾚｽあります
ｽﾚ情報赤ﾚｽ抽出画像ﾚｽ抽出歴の未読ｽﾚ

ぬこの手ぬこTOP 0.041s