(強いAI)技術的特異点/シンギュラリティ 88

[過去ﾛｸﾞ] (強いAI)技術的特異点/シンギュラリティ 88 (1002ﾚｽ)
上下前次1-新
抽出解除ﾚｽ栞

このｽﾚｯﾄﾞは過去ﾛｸﾞ倉庫に格納されています｡
次ｽﾚ検索歴削→次ｽﾚ栞削→次ｽﾚ過去ﾛｸﾞﾒﾆｭｰ

221(2): 名無しさん＠そうだ選挙に行こう！ Go to vote! 2017/10/22(日) 15:28:38.27 ID:OxyFh9rK(1/4)調 AAS
>>215そもそもアルファ碁についてわかってない奴が
アルファ碁ゼロとの違いについてなんて分かるわけないだろ
ここの1から4を呼んで分かった気にでもなってろw

> Re: AlphaGo Zero 投稿者：山下投稿日：2017年10月19日(木)07時44分48秒
> 衝撃ですね・・・。
> 内容は囲碁の知識などは一切なしで、ルールのみから作ったものが
> セドル版のAlphaGoに100-0で勝つほど強くなったそうです。
>
> 1. 人間の知識などはいっさいなく、囲碁のルールのみ、からの自己対戦による強化学習
> 2. 入力は黒と白の石の配置のみ。ダメの数とかは一切なし。
> 3. Policy、Value、などと分割せずに、1つのネットワーク。
> 4. モンテカルロ法(Rollout)は使っていない。
>
> 個人的には 4. が衝撃でした。
> 以下はメモです。
> 人間がよく打つ隅の定石を見つけた(5つの例)。
> 33に入る定石は5手目に黒がケイマに飛ぶ形を最終的に好む
> 学習の初期は石を取ることを好み、次に死活の基礎を学び、最終的にバランスが取れた美しい手を打つ
> 学習から36時間でセドル戦のバージョンに追いついた。
> セドル版には100-0で勝つ。
> プロの手の一致率は48%ぐらいと低い。プロの手から学習したものは54%ぐらい。
> ResNetが単なるConvolutionより優秀で、PolicyとValueを一つのネットワークで評価するのが優秀。
> > 出力はValueとPolicy。一つのネットワーク。
> 入力は石の配置と着手履歴(棋譜)。
> 0から7手前までの黒、白の配置と手番(17面)
> ResNetを使ってる。Batch Normalizationあり。
> 40 Residual Block
> 1 Block は (3x3 256, BN, ReLU)が2つ。つまり 80層のConvolution
> ZeroはMasterに89勝11敗
> MasterはZeroと同じ手法で作られているが、人が作ったRolloutは使っていた。
> 学習段階ではMCTSを使ってる。学習の中に先読みを取り入れた、新しい強化学習

225(2): 名無しさん＠そうだ選挙に行こう！ Go to vote! 2017/10/22(日) 15:44:24.71 ID:f3sRk5eD(14/22)調 AAS
>>219
アルファ碁も多分ゼロからやらせた事はあると思うんだよなぁー
だから、ゼロからという所はそうなんだろうけど、アルゴリズム部分のどこを大きく変更したのか気になってる
また、アルファ碁と比べて学習時間があり得ないほど短い
どんな変更を加えたらこのようになったんだろ？
仮にこれが容易にできるなら、すごいPCが無いとディープラーニングは無理だという常識すら意味が無くなりそうじゃん
プロではなく自分に勝てる程度なら数日家のPCでセルフプレーさせるだけで強くなるのかもしれないし・・・

>>221
ありがとう
なんか普通に本に出ているような用語（ゼロから作りDepLearningで見かけた）が出てるけど
この組み合わせで本当にここまで強くなるのかな？
例えばこの山下さんはこれだけ理解していたとして同等のものが作れるのだろうか？

232(1): 名無しさん＠そうだ選挙に行こう！ Go to vote! 2017/10/22(日) 16:07:17.14 ID:yMIyixu8(4/4)調 AAS
>>221
＞プロの手から学習したものは54%ぐらい。
ってことは54%は人間が教えてることにならないの？

上下前次1-新書関写板覧索設栞歴

ｽﾚ情報赤ﾚｽ抽出画像ﾚｽ抽出歴の未読ｽﾚ

ぬこの手ぬこTOP 1.529s*