知能研究スレ2©2ch.net

[過去ﾛｸﾞ] 知能研究スレ2©2ch.net (224ﾚｽ)
上下前次 1-新

このｽﾚｯﾄﾞは過去ﾛｸﾞ倉庫に格納されています｡
次ｽﾚ検索歴削→次ｽﾚ栞削→次ｽﾚ過去ﾛｸﾞﾒﾆｭｰ

128(1): >>126 2018/08/12(日)19:45 ID:ltAhnLdz(24/50) AAS
AA省

129(1): >>128 2018/08/12(日)19:46 ID:ltAhnLdz(25/50) AAS
BEｱｲｺﾝ:nida.gif
　リスト1は、N-entry並列スケジューラー用の `` next readys ''を生成するVerilogです。 >>128
4つのレディ・イベント入力タイプ（述部真、偽、オペランド＃0、オペランド＃1）がありますが、
? ry 、真/オペランド＃1ターゲットから偽/オペランド＃0ターゲットを区別するのに単一のターゲットインデックスビットで十分である。
述部ターゲットイベントがオペランドターゲットイベントと同じサイクルで発生しないことを保証することによって、真/オペランド＃1ターゲットと偽/オペランド＃0ターゲットを区別する為のターゲットインデックスビットは一つで済む。
? N = 32エントリの命令ウィンドウの場合、T0とT1は6ビット{入力＃1：0}である（すなわち、特定の{RT / RF / R0 / R1} .
? IID：5}。
省13

130(2): >>129 2018/08/12(日)19:49 ID:ltAhnLdz(26/50) AAS
BEｱｲｺﾝ:nida.gif
? 　 ry ：LUTまたはキャリーロジックまたはツリー、キャリーロジックゼロスキャン、および ry ワンショット変換を含む、多くの32ビットエンコーダデザインが評価されました。
　優先順位エンコーダ：LUTまたはキャリーロジックの OR ツリー、キャリーロジックのゼロスキャン、およびF7MAP / F8MAPマルチプレクサを使用したワンホット変換を含む、多くの32ビットエンコーダデザインが評価検討されました。
? ry 、2つのLUT遅延で完了する。
現在の設計では、バンク当たり2つの16→4エンコーダを使用し、2つの LUT の遅延で完了する。
ワン・イシュー・プロセッサでは、後続の2：1マルチプレクサがこれらのエンコーダ出力の1つを選択します。
　特に、各16ビットエンコーダ入力I [15：0]はI [15]、I [14:10]、I [9：5]、I [4：0]にチャンクされる。
省8

131(1): yamaguti 2018/08/12(日)19:51 ID:ltAhnLdz(27/50) AAS
BEｱｲｺﾝ:nida.gif
2chｽﾚ:future

132: >>130 2018/08/12(日)19:51 ID:ltAhnLdz(28/50) AAS
BEｱｲｺﾝ:nida.gif
図5：並列スケジューラのFPGA実装

? 　 ry 、およびデコードされた命令バッファ ry 。
　図5は、スケジューラ、プライオリティエンコーダ、およびデコード済命令用バッファを含む図4のザイリンクス7シリーズの実装であり、クリティカルパスが白 ry
　FPGAスライスの2つの水平な行はそれぞれ、命令ウィンドウの4つのエントリに対応します。
左から右へ：

? • 淡黄色：4つの6ビットデコード済み状態フリップフロップ。
省13

133(1): >>131 2018/08/12(日)19:52 ID:ltAhnLdz(29/50) AAS
BEｱｲｺﾝ:nida.gif
? ry 準備完了状態
E. 増分データフロースケジューラレディー状態
　並列スケジューラは簡単ですが、32x12bのレディステート（LUT RAMの数少ないLUT）を維持するために何百ものLUTとFFを消費し、命令ウィンドウのサイズが2倍になるとこの領域も2倍になります。
? また、発行された各命令が多くても2つの他の準備完了状態に影響を与えても（ブロードキャストにもかかわらず）、各命令の次のreadys LUTの各サイクルはすべての命令の準備を再計算します。
又、発行された各命令が大抵 2 つの他のレディー状態に影響を与えても（ブロードキャストにもかかわらず）、LUT での各レディーは次の各サイクルで全ての命令のレディーステートを再計算させます。 ?
? ry 、キュー内のレディ命令のフロンティアを維持し、 ry 。
省3

134: yamaguti 2018/08/12(日)19:53 ID:ltAhnLdz(30/50) AAS
BEｱｲｺﾝ:nida.gif
2chｽﾚ:future

135(4): >>133 2018/08/12(日)19:54 ID:ltAhnLdz(31/50) AAS
BEｱｲｺﾝ:nida.gif
DRDYSS
　　WA ← 　　DC_IID
　　RA ← 　　EVT_IID
　　I ← 　　DC_DRDYS
　　O → 　　READY LOGIC　　DRDYS

ARDYSS
省20

136(2): >>135 2018/08/12(日)19:57 ID:ltAhnLdz(32/50) AAS
BEｱｲｺﾝ:nida.gif
? ry ：準備状態、検証、および準備論理。
（a）設計：レディー状態、検証、およびレディーロジック。

（b）FPGAの実装。

図6： 16エントリスケジューラバンク。

137: >>136 2018/08/12(日)19:58 ID:ltAhnLdz(33/50) AAS
BEｱｲｺﾝ:nida.gif
? 　 ry とFFの `` RAM ''の ry 。
　代わりに、スケジューラはLUT RAMとFF `` RAM '' のハイブリッドを使用します。
? ry 16x4真のデュアルポートLUT RAMのいくつかのバンクに格納され、16x1フラッシュクリア可能セット - 「FC-SO-RAM」
デコードされた（DRT、DRF、DR0、DR1）およびアクティブ（RT、RF、R0、R1）レディ状態は16x4の真のデュアルポート LUT RAM を構成する「 FC-SO-RAM 」に批准する 16 x 1 フラッシュクリア可能セットオンリー RAM であるいくつかのバンクに格納される。
? これには、16個 ry ）すべて。
これは、16個のFF（共通リセット付き）、16個のライトポートアドレスデコーダ（8個の5,5-LUT）、16：1のリードポートマルチプレクサ（4個の6-LUT、2個のMUXF7、1個のMUXF8）の全 3 つのスライスで構成されています。
省11

138(1): >>136 2018/08/12(日)20:00 ID:ltAhnLdz(34/50) AAS
AA省

139(2): >>138 2018/08/12(日)20:01 ID:ltAhnLdz(35/50) AAS
BEｱｲｺﾝ:nida.gif
F. インクリメンタルなデータフロースケジューラの設計、運用、実装
　スケジューラのコア（図7）は次のように構成されています。

• INSN: 2つのターゲットイベントフィールドを持つデコードされた命令
• EVT0, EVT1: 偶数/奇数ペンディングイベントレジスタ
• 偶数/奇数イベントマルチプレクサ、プリデコードされたセレクトによって制御される
• SCH0, SCH1: 偶数/奇数16エントリスケジューラバンク
省23

140: yamaguti 2018/08/12(日)20:02 ID:ltAhnLdz(36/50) AAS
BEｱｲｺﾝ:nida.gif
2chｽﾚ:future

141(2): >>139 2018/08/12(日)20:03 ID:ltAhnLdz(37/50) AAS
AA省

142(1): >>141 2018/08/12(日)20:05 ID:ltAhnLdz(38/50) AAS
BEｱｲｺﾝ:nida.gif
（b）FPGAの実装。

? ry 、デコードされた命令バッファ、レディキューを含む。
図7： 32エントリスケジューラ、デコード済命令バッファ、レディキュー。

? 　ry データフロー実行は次のように実行されます。
　バックエンドのデータフロー実行継続は次の様に承認されます。
? ry 、両方のREADYが否定されます。
省19

143: >>139 2018/08/12(日)20:11 ID:ltAhnLdz(39/50) AAS
BEｱｲｺﾝ:nida.gif
>>139
>　図1の最初のEDGEコードブロッ

>>109 >>109-110 >>110

144(1): >>142 2018/08/12(日)20:14 ID:ltAhnLdz(40/50) AAS
BEｱｲｺﾝ:nida.gif
? 　 ry 、多くのエラスティックFIFOレディキュー ry 。
　キュー：このデザインでは、多くの弾力的 FIFO レディキューとイベントキューが採用されています。
? アップダウンカウンタと ry 。
それらは小さく且つ高速でありアップダウンカウンタとザイリンクスSRL32CE 32ビット可変長シフトレジスタLUTで構成されています。
DCRDYQに加えて、現在の設計には2つの他のレディキューがあります。
? 　ISRDYQ：命令が発行され、それが2つを目覚めさせ、偶数命令が次に発行し、奇数命令がISRDYQにキューイングされるときの「1つの問題」の設計では、
省12

145(1): >>144 2018/08/12(日)20:16 ID:ltAhnLdz(41/50) AAS
BEｱｲｺﾝ:nida.gif
　パフォーマンス：図7aのラベル0〜6は、スケジューラクリティカルパスの各ポイントへの「LUT遅延」の数を示します。図7bの白いパスです。 >>141
? ry を含む4.3 nsです。
Kintex-7 -1スピードグレードでは、INSNクロックトゥーアウト、EVTマルチプレクサ、SCH1のAVSリードポートマルチプレクサ、ARDYS_NXTとREADYロジック、IIDセレクタ、INSNSリード、およびINSNセットアップを含めて 4.3 ns です。
? ry LUTローカルMUXF7 / MUXF8 / CARRY4ネットの使用 ry 。
ここで、相互接続遅延は、比較的短いネットとLUTローカルなMUXF7/MUXF8/ CARRY4ネットなりの使用を反映するクリティカルパスのわずか70％です。
? ry バックトゥーバック問題が排除されます。
省1

146(1): >>145 2018/08/12(日)20:17 ID:ltAhnLdz(42/50) AAS
AA省

147(1): >>146 2018/08/12(日)20:18 ID:ltAhnLdz(43/50) AAS
BEｱｲｺﾝ:nida.gif
　表2は、2つのデータフロースケジューラ設計の違いをまとめたものです。 >>146
インクリメンタルスケジューラのコアは、並列スケジューラのサイズの3分の1以下ですが、キューとマルチプレクサの追加オーバーヘッドが追加されるとサイズの利点が小さくなります。
? ry 、エリア*期間のメトリック ry 。
インクリメンタルスケジューラも高速で、エリア*時間のメトリックは2.6倍優れています。

7

しかし、並列スケジューラはいくつかの強引な利点を保持しています。
省12

148(1): >>147 2018/08/12(日)20:18 ID:ltAhnLdz(44/50) AAS
BEｱｲｺﾝ:nida.gif
IV. 結論
? 　 ry 取り組みを紹介します。
　本稿では、FPGAのための実用的な ry に向けた取組を紹介しました。
ASICのより単純な高ILPマイクロアーキテクチャに最適化された新しいEDGE命令セットアーキテクチャが、FPGAに適しているか、または汎用ソフトプロセッサがスカラーRISC低速レーンに停滞しているかどうか ry
　我々は、2つの異なるデータフロー命令スケジューラ設計と ry を検討した。
? ry 、いずれかのデザインのFPGAリソースコストとクロック周期の影響は限定的であり、 ry 。
省3

149(1): yamaguti 2018/08/12(日)20:19 ID:ltAhnLdz(45/50) AAS
BEｱｲｺﾝ:nida.gif
2chｽﾚ:future

150(2): >>148 2018/08/12(日)20:21 ID:ltAhnLdz(46/50) AAS
BEｱｲｺﾝ:nida.gif
参考文献
? ry 、「FPGAでRISCをつくる」、 ry
[1] J. Gray、1996年8月、「 FPGA で自家製 RISC をつくる」、外部ﾘﾝｸ[ppt]:fpgacpu.org
[2] ----、「FPGAにRISCシステムを構築する」サーキットセルラーインク、no。 116 - 118、March、April、2000年5月。
[オンライン]。利用可能な：外部ﾘﾝｸ[pdf]:fpgacpu.org
[3]アルテラ・コーポレーション、「Niosエンベデッド・プロセッサ・ソフトウェア開発リファレンス・マニュアル」、2001年3月。
省12

151(1): >>150 2018/08/12(日)20:22 ID:ltAhnLdz(47/50) AAS
BEｱｲｺﾝ:nida.gif
[9] R. Carli、柔軟なMIPSソフトプロセッサアーキテクチャ、修士論文、マサチューセッツ工科大学、2008年5月
[10] K. AasaraaiとA. Moshovos、「実行可能な順序外ソフトコアへ：コピーフリー、チェックポイント付きレジスタの名前変更、
フィールドプログラマブルロジックとアプリケーションに関する第19回国際会議の講演会、2009年8月。
[11] BH Dwiel、NK Choudhary、およびE. Rotenberg、「多様なスーパースカラー・プロセッサのFPGAモデリング」、
? ry 」、2012年、188〜199頁。
IEEE国際シンポジウム「システムとソフトウェアの性能解析」論文集、2012年、 pp 188〜199頁。
省8

152(2): >>151 2018/08/12(日)20:23 ID:ltAhnLdz(48/50) AAS
BEｱｲｺﾝ:nida.gif
[14] C. Kim、S. Sethumadhavan、MS Govindan、N. Ranganathan、D. Gulati、D. Burger、およびSW Keckler、
? ry 、2007年、381〜394頁。
「構成可能な軽量プロセッサ」、第40回マイクロアーキテクチャシンポジウム講演予稿集、2007年、 pp 381〜394頁。
[15] B. Robatmili、D. Li、H. Esmaeilzadeh、S. Govindan、A. Smith、A. Putnam、D. Burger、およびSW Keckler、
? 「ヒューズブル ry 」
「フューザブルダイナミックマルチコアアーキテクチャのための効果的な予測とフォワーディングの実装方法」
省6

153(1): >>152 2018/08/12(日)20:27 ID:ltAhnLdz(49/50) AAS
BEｱｲｺﾝ:nida.gif
>>105-152
2chｽﾚ:future
>184 yamaguti 180727 0129 pBBIx/eO?2BP(0)
> >>46 >>173 >>152-183
> Google 翻訳
>
省6

154: >>153 2018/08/12(日)20:33 ID:ltAhnLdz(50/50) AAS
BEｱｲｺﾝ:nida.gif
>>153
外部ﾘﾝｸ[pdf]:arxiv.org
Twitterﾘﾝｸ:jangray
外部ﾘﾝｸ[pdf]:www.cs.utexas.edu
外部ﾘﾝｸ[pdf]:www.cs.utexas.edu
外部ﾘﾝｸ[pdf]:www.microsoft.com
省2

155(2): yamaguti 2018/08/27(月)09:32 ID:Zq8VRJ9K(1/50) AAS
BEｱｲｺﾝ:nida.gif
Google 翻訳

　

ページ1

　

好奇心に基づいた学習の大規模研究
省6

156(1): >>155 2018/08/27(月)09:33 ID:Zq8VRJ9K(2/50) AAS
BEｱｲｺﾝ:nida.gif
抽象

強化学習アルゴリズムは、エージェントへの慎重にエンジニアリングされた外的な環境報酬に依存します。
しかし、手作業で設計された密集した報酬で各環境に注釈を付けることはスケーラブルではなく、エージェントに内在する報酬機能を開発する必要があります。
好奇心は報酬信号として予測誤差を用いる内的報酬関数の一種である。
このペーパーでは、（a）Atariゲームスイートを含む54の標準ベンチマーク環境全体にわたって、純粋に好奇心に基づいた学習、つまり、いかなる外的報酬も伴わない最初の大規模な学習を行います。
私たちの結果は、驚くほど優れたパフォーマンスと、本質的な好奇心の目標と多くのゲーム環境の手作業で設計された外的報酬との高度なアライメントを示しています。
省6

157(1): >>156 2018/08/27(月)09:34 ID:Zq8VRJ9K(3/50) AAS
BEｱｲｺﾝ:nida.gif
前書き

補強学習（RL）は、エージェントが複雑なタスクを実行するための一般的な方法として浮上しています。
RLでは、エージェントポリシーは、タスクに合わせて設計された報酬関数を最大化することによって訓練される。
報酬は代理人の外来であり、彼らが定義する環境に特有のものです。
RLにおける成功の大部分は、この報酬機能が密集してよく整形されているとき、例えばビデオゲームで走っている「スコア」のときに達成された[21]。
しかしながら、うまく整形された報酬機能を設計することは、非常に困難な工学的問題である。
省12

158(2): >>157 2018/08/27(月)09:35 ID:Zq8VRJ9K(4/50) AAS
BEｱｲｺﾝ:nida.gif
ページ2

図1：
このペーパーで調査された54の環境のスナップショット。
エージェントは、外的報酬、またはエピソード終了信号を使わずに、好奇心だけを使って進歩を遂げることができることを示します。
ビデオの結果、コード、モデル外部ﾘﾝｸ:pathak22.github.io 。

このホワイトペーパーでは、様々なシミュレートされた環境のさまざまな範囲の固有の報酬によって純粋に駆動されるエージェントの大規模な実証研究を行っています。
省6

159(1): >>158 2018/08/27(月)09:35 ID:Zq8VRJ9K(5/50) AAS
BEｱｲｺﾝ:nida.gif
好奇心に基づいた学習をより深く理解するために、パフォーマンスを決定づける重要な要因についてさらに検討します。
特に、高次元の生の観測空間（例えば、画像）における将来の状態を予測することは困難な問題であり、最近の研究[27,42]に示されるように、補助的な特徴空間における学習のダイナミクスは改善された結果につながる。
しかしながら、そのような埋め込み空間をどのように選択すべきかは、重要であるが未だオープンな研究課題である。
体系的アブレーションを通じて、エージェントが自分の好奇心によって純粋に動くように、エージェントの観察をコード化するさまざまな方法の役割を調べます。
To ensure stable online training of dynamics, we argue that the desired embedding space should: (a) be compact in terms of dimensionality,
ダイナミクスの安定したオンライントレーニングを確実にするために、我々は、所望の埋め込み空間が、（a）次元的にコンパクトであり、
省5

160(2): >>159 2018/08/27(月)09:36 ID:Zq8VRJ9K(6/50) AAS
BEｱｲｺﾝ:nida.gif
要約すれば：
(a) We perform a large-scale study of curiosity-driven exploration across a variety of environments including:
（a）私たちは、好奇心に基づいた探査の大規模な研究を、
the set of Atari games [4], Super Mario Bros., virtual 3D navigation in Unity [1], multi-player Pong, and Roboschool [39] environments.
Atariゲーム[4]、Super Mario Bros.、Unity [1]、マルチプレイヤーPong、Roboschool [39]環境での仮想3Dナビゲーション。
（b）ランダム特徴、画素、逆ダイナミクス[27]、変分オートエンコーダ[15]を用いて、ダイナミクスに基づいた好奇心を学習するための異なる特徴空間を広範囲に調査し、見えない環境への一般化を評価する。
省4

161(1): >>160 2018/08/27(月)09:36 ID:Zq8VRJ9K(7/50) AAS
BEｱｲｺﾝ:nida.gif
Page 3

2
ダイナミクスに基づく好奇心に基づく学習

観測xtを見て、xt + 1の観測で次の状態に移り、次の状態に遷移するエージェントを考えてみましょう。
私たちは、このエージェントを、移行がどれほど有益であったかという報酬と奨励したいと考えています。
この報酬を提供するために、我々は以下の要素を含む探査ボーナスを使用します：
省13

162(1): >>161 2018/08/27(月)09:37 ID:Zq8VRJ9K(8/50) AAS
BEｱｲｺﾝ:nida.gif
2.1
フォワードダイナミクスのための特徴空間
上記の好奇心の定式化におけるφの表現を考えてみよう。
φ（x）= xならば、フォワードダイナミクスモデルは観測空間で予測を行う。
特徴空間の良好な選択は、予測タスクをより扱い易くし、観測空間の無関係な側面を取り除くことができる。
しかし、ダイナミクスの好奇心を生み出すための優れた機能スペースは何になるでしょうか？
省9

163(1): >>162 2018/08/27(月)09:38 ID:Zq8VRJ9K(9/50) AAS
BEｱｲｺﾝ:nida.gif
ピクセル
最も単純な場合は、φ（x）= xであり、我々の前方力学モデルを観測空間に適合させる場合である。
情報は投げ捨てられず、特徴学習コンポーネントがないので安定しているので、ピクセルで十分です。
しかし、観測空間が高次元で複雑なため、ピクセルからの学習は難しい。

ランダム機能（RF）
次の最も単純なケースは、埋め込みネットワーク、畳み込みネットワークを取り、ランダム初期化後に修正するところです。
省13

164(1): >>163 2018/08/27(月)09:38 ID:Zq8VRJ9K(10/50) AAS
BEｱｲｺﾝ:nida.gif
Page 4

次に、埋め込みネットワークφとして平均値への写像を用いることができる。
These features will be a low-dimensional approximately sufficient summary of the observation,
これらの特徴は、観察の低次元の概ね十分な要約であり、
but they may still contain some irrelevant details such as noise, and the features will change over time as the VAE trains.
ノイズなどの無関係な詳細が含まれている可能性があります。その機能は、VAEがトレーニングするにつれて変化します。
省11

165(1): >>164 2018/08/27(月)09:39 ID:Zq8VRJ9K(11/50) AAS
BEｱｲｺﾝ:nida.gif
2.2
純粋に好奇心によって動かされるエージェントを訓練する際の実際的な考察
特徴空間を決定することは、実用的なシステムを実装する際のパズルの最初の部分に過ぎない。
ここでは、学習アルゴリズムで行った重要な選択について詳しく説明します。
私たちの目標は、学習をより安定したものにするため、非定常性を減らすことでした。
以下に概説する以下の考慮事項により、ハイパーパラメータの変更を最小限に抑えながら、さまざまなフィーチャ学習方法や環境で確実に動作するように探査を行うことができます。
省16

166(1): >>165 2018/08/27(月)09:40 ID:Zq8VRJ9K(12/50) AAS
BEｱｲｺﾝ:nida.gif
2.3
`死は終わりではない '：無限の地平線との割引好奇心
1つの重要な点は、エピソード信号の終わり（時には「完了」と呼ばれる）を使用すると、実際の報酬機能に関する情報が漏れることが多いことです。
シグナルを取り除かなければ、Atariのゲームの多くは単純すぎるようになります。
For example, a simple strategy of giving +1 artificial reward at every time-step when the agent is alive and 0 on death is sufficient to obtain a high score in some games,
例えば、エージェントが生きているときにステップごとに+1の人工報酬を与えるという簡単な戦略は、いくつかのゲームで高い得点を得るには死亡時に0で十分ですが、
省5

167(2): >>166 2018/08/27(月)09:40 ID:Zq8VRJ9K(13/50) AAS
BEｱｲｺﾝ:nida.gif
0 100 200 300 400
0 500 1000 1500 2000 2500 3000 3500 4000

ビームライダー
BreakOut ? 起こる
MontezumaRevenge ? モンテスマ復讐
ポン
省19

168(1): >>167 2018/08/27(月)09:42 ID:Zq8VRJ9K(14/50) AAS
BEｱｲｺﾝ:nida.gif
これに照らして、純粋な探索エージェントの行動を研究したい場合、エージェントにバイアスをかけてはいけません。
無限の地平線の設定では（つまり、ディスカウントされたリターンはエピソードの終わりに切り捨てられず、バリュー関数を使用して常にブートストラップされます）、死は退屈な場合にだけ避けるべきエージェントへのもう一つの移行です。
したがって、エージェントの探索の利得を単に死のシグナルの利得から分離するために、「done」を削除しました。
実際には、エージェントはゲームの中で死ぬことを避けることができます。それは、ゲームの始め、何度も何度も見られた領域、そしてダイナミクスをうまく予測できる場所に戻ってくるからです。
この微妙さは、外的報酬のない実験を示す以前の研究によって無視されてきた。

3
省5

169(1): >>168 2018/08/27(月)09:43 ID:Zq8VRJ9K(15/50) AAS
BEｱｲｺﾝ:nida.gif
3.1
外的報酬のない好奇心に基づいた学習外的報酬を使用せずに、多数の環境に対する純粋な好奇心に基づく学習を拡大することから始めます。
We pick a total of 54 diverse simulated environments, as shown in Figure 1,
図1に示すように、合計54の多様なシミュレーション環境を選択し、
including 48 Atari games, Super Mario Bros., 2 Roboschool scenarios (learning Ant controller and Juggling), Two-player Pong, 2 Unity mazes (with and without a TV controlled by the agent).
Super Mario Bros.、Roboschoolシナリオ2（Ant Control and Jugglingを学ぶ）、Two-player Pong、2つのUnity mazes（エージェントによって制御されたテレビの有無にかかわらず）を含む48のAtariゲームを含みます。
省7

170(1): >>169 2018/08/27(月)09:44 ID:Zq8VRJ9K(16/50) AAS
BEｱｲｺﾝ:nida.gif
Page 6

A）アタリゲームズ
これらの質問に答えるために、我々はよく知られているAtariゲームのコレクションから始め、異なるフィーチャラーニング方法で一連の実験を行いました。
純粋に好奇心を要するエージェントがどれだけうまくいくかを測定する1つの方法は、それが達成できる外的報酬、すなわちゲームをプレイするエージェントがどれほど良いかを測定することです。
我々は、図2の8つの一般的なAtariゲームと、付録の図8のすべてのAtariスイート48の平均外的報酬の評価曲線を示します。
外的報酬は評価のためにのみ使用され、訓練には使用されないことに注意することが重要です。
省7

171(1): >>170 2018/08/27(月)09:47 ID:Zq8VRJ9K(17/50) AAS
BEｱｲｺﾝ:nida.gif
これは予期しない結果であり、多くの一般的なRLテストベッドでは外部報酬が必要ないことを示唆している可能性があります。
ry (similar to architects, urban planners, gardeners, etc.) are
これはゲームデザイナー（建築家、都市計画家、庭師などに似ている）が
very good at setting up curriculums to guide agents through the ry
好奇心のような目的は、多くの人間が設計した環境[6,12,16,48]の外的報酬とうまく一致しています。
しかし、これは必ずしもそうではなく、時には好奇心をそそるエージェントがランダムエージェントよりも悪い場合もあります。
省10

172(1): >>171 2018/08/27(月)09:48 ID:Zq8VRJ9K(18/50) AAS
BEｱｲｺﾝ:nida.gif
VAE法も良好に機能しましたが、やや不安定でしたので、RFとIDFを実験に使用することにしました。
The detailed result in appendix Figure 8 compares IDF vs.
付録の詳細な結果図8は、IDFと
RF across the full Atari suite.
フルアタリスイート全体のRF。
学習された行動を定量化するために、我々は好奇心旺盛なエージェントをランダムに行動するエージェントと比較した。
省14

173(2): >>172 2018/08/27(月)09:48 ID:Zq8VRJ9K(19/50) AAS
BEｱｲｺﾝ:nida.gif
0 10 20 30
0 250 500 750 1000 1250 1500 1750 2000

エピソードごとの外来報酬

勾配の更新の数
（a）大きなバッチ付きマリオ
128環境のバッチ
省18

174(2): >>173 2018/08/27(月)09:49 ID:Zq8VRJ9K(20/50) AAS
BEｱｲｺﾝ:nida.gif
図3（a）の128と2048の並列環境スレッドを用いた訓練の比較を示す。
グラフから明らかなように、2048パラレル環境スレッドを使用した大きなバッチサイズのトレーニングは、より優れたパフォーマンスを発揮します。
実際には、エージェントはもっと多くのゲームを探索することができます。ゲームの11のレベルを発見し、秘密の部屋を見つけ、上司を倒すことができます。
この大規模実験のポイントは、サンプル効率についての主張ではなく、エージェントのトレーニングに関するパフォーマンスであるため、図のx軸はフレーム数ではなく、グラジエントステップ数です。
この結果は、基本的なRLアルゴリズム（この場合はPPO）のトレーニングが向上するにつれて、純粋に好奇心に基づくエージェントのパフォーマンスが向上することを示しています。
ビデオはウェブサイトにあります。

175: yamaguti 2018/08/27(月)09:53 ID:Zq8VRJ9K(21/50) AAS
BEｱｲｺﾝ:nida.gif
外部ﾘﾝｸ:google.jp

176(1): >>174 2018/08/27(月)09:53 ID:Zq8VRJ9K(22/50) AAS
BEｱｲｺﾝ:nida.gif
C）ロボスジャグリング
私たちはRoboschoolフレームワークからPong環境を修正して、1つのパドルと2つのボールを持つようにしました。
アクション空間は2次元で連続しており、アクション空間を次元ごとに5ビンに離散化し、合計25のアクションを与えました。
ポリシーネットワークと埋め込みネットワークの両方は、ピクセル観測空間で訓練されています（注：状態空間ではありません）。
この環境は、ゲームで使用される玩具物理学よりも制御が難しいですが、代理人は、ボールがその領域に入ったときに、ボールを傍受して打つことを学びます。
図3（b）に示すように、環境との相互作用のプロキシとしてボールのバウンス回数を監視しました。
省12

177(1): >>176 2018/08/27(月)09:54 ID:Zq8VRJ9K(23/50) AAS
BEｱｲｺﾝ:nida.gif
エージェントが両面をプレイしているので、この文脈では外的報酬は無意味なので、代わりにエピソードの長さを示します。
結果を図3（c）に示す。
We see from the episode length that the agent learns to have more and longer rallies over time, learning to play pong without any teacher ?
エピソードの長さから、エージェントが時間の経過と共にますます長くなる集会を学び、先生なしでポンをすることを学びます。
purely by curiosity on both sides.
純粋に両側の好奇心によって。
省3

178(2): >>177 2018/08/27(月)09:55 ID:Zq8VRJ9K(24/50) AAS
BEｱｲｺﾝ:nida.gif
3.2
スーパーマリオブラザーズの新レベルでの一般化
前のセクションでは、純粋に好奇心を持ったエージェントが効率的に探索し、ゲームでのゲームの振る舞い、Antでのウォーキングの振る舞いなどの有用なスキルを学ぶことを学ぶことができたことを示しました。
これまでは、エージェントが訓練された環境でこれらのスキルが示されていました。
しかし、無償学習を開発することの利点の1つは、新しい環境に一般化を示すことによって、報酬機能を持たない豊富な「未ラベル」環境を利用できるようにすることです。

これをテストするには、まずMario Brosのレベル1-1で好奇心を使ってエージェントを事前にトレーニングします。
省11

179(1): >>178 2018/08/27(月)09:56 ID:Zq8VRJ9K(25/50) AAS
BEｱｲｺﾝ:nida.gif
IDFスクラッチ
IDF転送
RFスクラッチ
RF転送

0 10 20 30
0 250 500 750 1000 1250 1500 1750 2000
省11

180(1): >>179 2018/08/27(月)09:56 ID:Zq8VRJ9K(26/50) AAS
BEｱｲｺﾝ:nida.gif
フレーム数（単位：百万）
エピソードごとの外来報酬

Unity迷路

ランダムCNN機能
外来のみ
Inverse dynamics features ? 逆動特性
省13

181(1): >>180 2018/08/27(月)09:57 ID:Zq8VRJ9K(27/50) AAS
BEｱｲｺﾝ:nida.gif
Page 9

前方への移動、15度左を見る、15度右を見る、そして何も操作しない離散的なアクション空間があります。
エージェントは部屋1から開始します。部屋1はエージェント9の目標を含む部屋9から最も離れています。
私たちは、外的報酬で訓練されたエージェント（目標に達すると+1、それ以外の場合は0）を外的+内的報酬で訓練されたエージェントと比較します。
外来のみ（古典的なRL）は、すべての試行において目標を見つけることは決してありません。意味のある勾配を得ることは不可能です。
外因性+内在性は、典型的に毎回報酬を得ることに集中するのに対し、
省9

182(1): >>181 2018/08/27(月)09:58 ID:Zq8VRJ9K(28/50) AAS
BEｱｲｺﾝ:nida.gif
4
関連作業

本質的な動機づけ：
A family of approaches to intrinsic motivation reward内在的なモチベーション報酬へのアプローチのファミリー
an agent based on prediction error [2, 27, 36, 42], prediction uncertainty [11, 44], or improvement [19, 34] of a forward dynamics model of the environment that gets trained along with the agent 's policy.
エージェントの方針とともに訓練された環境のフォワードダイナミクスモデルの予測誤差[2,27,36,42]、予測不確実性[11,44]、または改善[19,34]に基づくエージェント。
省13

183(1): >>182 2018/08/27(月)09:58 ID:Zq8VRJ9K(29/50) AAS
BEｱｲｺﾝ:nida.gif
内在的な報酬には、州訪問回数の平滑化されたバージョンを使用することができる[3,9,24,47]。
Count-based methods have already shown very strong results when combining with extrinsic rewards such as setting the state of the art in the Atari game Montezuma 's Revenge [3],
カウントベースの方法は、AtariのゲームMontezuma's Revenge [3]で最新の状態を設定するなどの外的な報酬と組み合わせると、非常に強力な結果を示しています。
and also showing significant exploration of the game without using the extrinsic reward.
また、外的報酬を使用せずにゲームの重要な探索を示しています。
カウントベースのアプローチがダイナミクスベースのアプローチよりも好まれるべきである状況はまだ明確ではない。このペーパーでは、ダイナミクスベースのボーナスに重点を置くことを選択しました。
省4

184(2): >>183 2018/08/27(月)10:04 ID:Zq8VRJ9K(30/50) AAS
BEｱｲｺﾝ:nida.gif
Other methods of exploration are designed to work in combination with maximizing a reward function, such as those utilizing uncertainty about value function estimates [5, 23], or those using perturbations of the policy for exploration [8, 29].
他の探査方法は、価値関数推定値に関する不確実性を利用する報酬関数や探索のための方針の摂動を用いる報酬関数などの報酬関数を最大化することと組み合わせて機能するように設計されている[8]、[29]。
Schmidhuber [37]とOudeyer [25]、OudeyerとKaplan [26]は、内在的動機づけへのアプローチに関する初期の研究のいくつかについて素晴らしいレビューを提供する。

185(1): >>184 2018/08/27(月)10:04 ID:Zq8VRJ9K(31/50) AAS
BEｱｲｺﾝ:nida.gif
Alternative methods of exploration include Sukhbaatar et al.
探査の代替方法には、Sukhbaatar et al。
[45] where they utilize an adversarial game between two agents for exploration.
[45]彼らは探索のために2つのエージェントの間で敵対的なゲームを利用する。
In Gregor et al.
Gregor et al。
省6

186(1): >>185 2018/08/27(月)10:06 ID:Zq8VRJ9K(32/50) AAS
BEｱｲｺﾝ:nida.gif
ランダムな特徴：
この論文の発見の1つは、ランダムな特徴の驚くべき有効性であり、ランダム投影法およびより一般的にはランダムに初期化されたニューラルネットワークに関する著しい文献がある。
Much of the literature has focused on using random features for classification [14, 33, 49] where the typical finding is that whilst random features can work well for simpler problems,
文献の多くは、分類のためにランダムな特徴を用いることに焦点を当てている[14,33,49]。典型的な発見は、ランダムな特徴がより簡単な問題のためにうまくいく一方、
feature learning performs much better once the problem becomes sufficiently complex.
問題が十分に複雑になると、フィーチャラーニングははるかに良好に機能します。
省4

187(1): >>186 2018/08/27(月)10:06 ID:Zq8VRJ9K(33/50) AAS
BEｱｲｺﾝ:nida.gif
Page 10

5
討論

私たちのエージェントは純粋に好奇心を持って訓練され、有益な行動を学ぶことができることを示しました。
（a）エージェントは報酬を使わずに多くのアタリゲームをプレイできます。
（b）マリオは報酬なしで11レベル以上を越えることができる。
省6

188(1): >>187 2018/08/27(月)10:07 ID:Zq8VRJ9K(34/50) AAS
BEｱｲｺﾝ:nida.gif
0.0 0.2 0.4 0.6 0.8 1.0
0 1 2 3 4 5 6 7 8

フレーム数（単位：百万）
エピソードごとの外来報酬

テレビをオフにしたRF
TV付きのRF
省10

189(1): >>188 2018/08/27(月)10:07 ID:Zq8VRJ9K(35/50) AAS
BEｱｲｺﾝ:nida.gif
我々は3.3節の迷路に戻り、ノイズの多いTV問題と呼ばれる共通の思考実験を経験的に検証する。
そのアイデアは、アクションが取られたときにチャンネルをランダムに変更するテレビのような環境におけるエントロピーのローカルソースは、エージェントにとって不可欠な誘因であることがわかっているはずです。
私たちは文字通りこの思考実験を行い、チャンネルを変更するアクションとともに迷路にテレビを追加します。
図6では、ノイズの多いTVの追加がIDFとRFのパフォーマンスにどのように影響するかを示しています。
予想どおり、テレビの存在は学習を大幅に遅くしますが、実験を長時間実行すると、エージェントは時には外的報酬を一貫して得ることに集中することがあります。
経験的には、確率論が問題になる可能性があることを経験的に示しているので、今後の研究ではこの問題を効率的に扱うことが重要です。
省6

190(1): >>189 2018/08/27(月)10:09 ID:Zq8VRJ9K(36/50) AAS
BEｱｲｺﾝ:nida.gif
謝辞

私たちはUnity環境、Phillip Isola、Alex Nicholsの助けを借りてChris Luに感謝の意を表する。
実りある議論のために、BAIRとOpenAIのメンバーに感謝します。
DPはFacebookの卒業生のフェローシップによってサポートされています。

参考文献

[1] Unity ML-agents. ? [1]統一MLエージェント。
省3

191(1): >>190 2018/08/27(月)10:11 ID:Zq8VRJ9K(37/50) AAS
BEｱｲｺﾝ:nida.gif
Page 11

[2] J. AchiamおよびS. Sastry。深い強化学習のためのサプライズベースの内的動機。
arXiv：1703.01732,2017。3,9
[3] M. Bellemare、S. Srinivasan、G. Ostrovski、T.Schaul、D. Saxton、およびR.Munos。
カウントベースの探索と固有のモチベーションの統一。 NIPSでは、2016年1月9日
[4] MG Bellemare、Y. Naddaf、J. Veness、およびM. Bowling。アーケード学習環境：一般エージェントの評価プラットフォーム。
省18

192(1): >>191 2018/08/27(月)10:12 ID:Zq8VRJ9K(38/50) AAS
BEｱｲｺﾝ:nida.gif
[14] K. Jarrett、K. Kavukcuoglu、Y. LeCun、et al。オブジェクト認識のための最善のマルチステージアーキテクチャとは何ですか？
IEEE, 2009. 9コンピュータビジョン、2009年IEEE第12回国際会議、21462153ページ、IEEE、2009. 9
[15] DP KingmaとM. Welling。変分ベイズの自動エンコーディング。 arXiv preprint arXiv：2013年2月3日、1312.6114
[16] N. Lazzaro。ゲームをする理由：プレイヤーの経験でより多くの感情への4つの鍵。 Proceedings of GDC、2004. 6、10
[17] J. LehmanおよびKO Stanley。新規性の探索を通じて問題を解決するためのオープンエンド性の活用。 ALIFE、2008. 9
[18] J.リーマンとKOスタンレー。放棄する目的：進化だけで斬新さの探索。進化的計算、2011. 9
省13

193(1): >>192 2018/08/27(月)10:12 ID:Zq8VRJ9K(39/50) AAS
BEｱｲｺﾝ:nida.gif
[26] P.-Y. Oudeyer and F. Kaplan。内在的な動機は何ですか？計算上のアプローチの類型。ニューロロボティクスの最前線、2009年1月9日
[27] D. Pathak, P. Agrawal, AA Efros, and T. Darrell.
D.Patak、P. Agrawal、AA Efros、およびT. Darrell。
自己監視予測による好奇心に基づく探索。 ICMLでは、2017年1月2日、3日、4日、6日、9日
[28] D. Pathak, P. Mahmoudieh, G. Luo, P. Agrawal, D. Chen, Y. Shentu, E. Shelhamer, J. Malik, AA Efros, and T. Darrell.
D. Pathak、P. Mahmoudieh、G. Luo、P. Agrawal、D. Chen、Y. Shentu、E. Shelhamer、J. Malik、AA Efros、およびT. Darrell。
省11

194(1): >>193 2018/08/27(月)10:13 ID:Zq8VRJ9K(40/50) AAS
BEｱｲｺﾝ:nida.gif
[34] J. Schmidhuber. 。奇妙なモデル構築制御システム。
Neural Networks、1991年、IEEE国際共同会議、14581463ページ、IEEE、1991. 9
[35] J. Schmidhuber。モデル構築のニューラルコントローラに好奇心と退屈を実現する可能性。
動物から動物へ：適応行動のシミュレーションに関する第1回国際会議の議事録、1991. 1
[36] J. Schmidhuber。モデル構築のニューラルコントローラに好奇心と退屈を実現する可能性、1991. 9
[37] J. Schmidhuber。創造性、楽しい、そして本質的な動機づけの公式理論（19902010）。
省16

195(1): >>194 2018/08/27(月)10:14 ID:Zq8VRJ9K(41/50) AAS
BEｱｲｺﾝ:nida.gif
[46] RS Sutton and AG Barto.
[46] RS SuttonおよびAG Barto。
Reinforcement learning: An introduction.
強化学習：導入。 MIT press Cambridge, 1998. 4
MITプレスケンブリッジ、1998。4
[47] H. Tang, R. Houthooft, D. Foote, A. Stooke, X. Chen, Y. Duan, J. Schulman, F. De Turck, and P. Abbeel.
省12

196(1): >>195 2018/08/27(月)10:15 ID:Zq8VRJ9K(42/50) AAS
BEｱｲｺﾝ:nida.gif
Page 13

A
実装の詳細

ウェブサイトでトレーニングコードと環境を公開しました3。
詳細については、ウェブサイトのコードとビデオの結果を参照してください。

前処理：
省5

197(1): >>196 2018/08/27(月)10:16 ID:Zq8VRJ9K(43/50) AAS
BEｱｲｺﾝ:nida.gif
Architectures:アーキテクチャ：
私たちの埋め込みネットワークとポリシーネットワークは、同一のアーキテクチャを持ち、Atariの実験で使用されている標準の畳み込みネットワークに基づいていました。
埋め込みネットワークのフィーチャとして取るレイヤーは、すべての実験で次元512で非線形性はありませんでした。
ユニティ実験では、予測誤差のスケールを外的報酬と比較して一定に保つために、埋め込みネットワークにbatchnormを適用しました。
また、共変量のレベルをレベルからレベルまで減らすためのMarioの一般化実験でもこれを行いました。
VAEの補助タスクとピクセルメソッドでは、同様のデコンボリューションアーキテクチャを使用しました。その詳細は、コード提出の中で見つけることができます。
省10

198(1): >>197 2018/08/27(月)10:16 ID:Zq8VRJ9K(44/50) AAS
BEｱｲｺﾝ:nida.gif
0 250 500 750 1000 1250 1500 1750
0 1000 2000 3000 4000 5000 6000 7000

0 100 200 300 400

ビームライダー
BreakOut ? 起こる
MontezumaRevenge ? モンテスマ復讐
省17

199(1): >>198 2018/08/27(月)10:17 ID:Zq8VRJ9K(45/50) AAS
BEｱｲｺﾝ:nida.gif
フレーム数（単位：百万）
エピソードごとの外来報酬

Inverse Dynamics features ? 逆動力学の特徴
ランダムエージェント
Random CNN features ? ランダムCNN機能

図8：
省7

200(1): >>199 2018/08/27(月)10:17 ID:Zq8VRJ9K(46/50) AAS
BEｱｲｺﾝ:nida.gif
Reward Gravitar Freeway Venture PrivateEye MontezumaRevenge ? Gravitar Freewayベンチャーに報酬を与えるPrivateEye Montezuma Revenge
Ext Only 999.3±220.7 33.3±0.6 0±0 5020.3±395 1783±691.7
Ext + Int 1165.1±53.6 32.8±0.3 416±416 3036.5±952.1 2504.6±4.6

表2：
これらの結果は、内因性+外因性報酬と外因性報酬のみを訓練した薬剤について、3種の種子にわたって1億フレーム後の平均報酬（±std-error）を比較する。
外因性（係数1.0）および内因性報酬（係数0.01）は、ハイパーパラメータ調整なしで直接結合された。
省15

201: >>200 2018/08/27(月)10:19 ID:Zq8VRJ9K(47/50) AAS
BEｱｲｺﾝ:nida.gif
Page 14

0 2500 5000 7500 10000 12500 15000 17500
0 25000 50000 75000 100000 125000 150000 175000 200000

エピソードごとの外来報酬
勾配の更新の数

マリオのスケール
省11

202: yamaguti [昨日放●性金属臭22日以降脱毛傾向sage] 2018/08/27(月)10:22 ID:Zq8VRJ9K(48/50) AAS
BEｱｲｺﾝ:nida.gif
外部ﾘﾝｸ:google.jp

203(1): >>155-201 2018/08/27(月)10:23 ID:Zq8VRJ9K(49/50) AAS
BEｱｲｺﾝ:nida.gif
>>155-201
2chｽﾚ:future AI/AL
2chｽﾚ:future Araya

>158 ｰ 180824 1739 3eCkMSqb
:
>に突き動かされるエージェントは独自のルールを、なんというか、セットするようになる。
省20

204: >>203 2018/08/27(月)10:24 ID:Zq8VRJ9K(50/50) AAS
BEｱｲｺﾝ:nida.gif
>>203
>
> 只意外とこういうのってホントにしつこくしつこく捜してると見付かったりするんですよね
> 開発者が意図してない部分でその技術を試すし考えるし自分がね工夫するしそれが楽しいんですね
> 新しい発見とかが見付かるかも知れないと思うとワクワクするし
>
省16

205(4): yamaguti 2018/12/18(火)09:31 ID:1Mljh8RF(1) AAS
BEｱｲｺﾝ:nida.gif
>>155-204
>403 ｰ 181206 0634 9MxLzrNl
>Twitterﾘﾝｸ:jaguring1
>
>グーグル傘下のDeepMindの研究 \>アタリのゲーム難３ \> 「MONTEZUMA’S REVENGE」　「PITFALL!」　「PRIVATE EYE」
>
省25

206(1): 205 2019/05/16(木)22:58 ID:aLnc2HDn(1/2) AAS
>>205
| 27 yamaguti 190514 1314 2vGaUUWM \>49 yamaguti 190419 0256 CVBD0yuO
||>130 ｰ 190405 1357 +TcvRYcO
|||】「ドワンゴ人工知能研究所」が閉鎖
||>2chｽﾚ:bizplus
|||
||>に汎用人工知能に詳し
省24

207: 205 2019/05/16(木)23:00 ID:aLnc2HDn(2/2) AAS
>>205-206
| 25 yamaguti 190514 1313 2vGaUUWM \ \>44 yamaguti 190419 0252 CVBD0yuO
||||>909 ｰ 190417 1359 MA2fvPeQ >579 ｰ 190411 0657 WPKyHS65
|||| :
||||>深層学習の限界突破へ、MITなどが「ハイブリッドAI」を開発
||||>外部ﾘﾝｸ:m.newspicks.com
||| :
省21

208: 102 2019/11/30(土)18:17 ID:g1wMpMyw(1/2) AAS
> 30 yamaguti 190901 2352 vP6qbkkr \ \>38 yamaguti 190712 0741 BvhXtK7w
>>> >830 ｰ 190703 1024 EzMBrXH5
> :
>>> >941 ｰ 190704 1138 y8i+Pbd/
>>>>AIの不安、第一人者の答
>>>>・ヒントン氏　トロント大学名誉教授
>>>>_外部ﾘﾝｸ:r.nikkei.com
省14

209: >>102 2019/11/30(土)18:18 ID:g1wMpMyw(2/2) AAS
> 59 yamaguti 191125 1755 6K8X4p8M
> >933 ｰ 191115 0924 IvREeeSh
>>ニューラルネッこうして進化：の権威・ヒントン
>>_外部ﾘﾝｸ:wired.jp
>
>> GH：、パンダを見てダチョウと、。、上位の表現からの再構成問題。。。最近、、・フロスト、（上位の表現からの）再構成、発見
> :
省14

210: ウルトラスーパーハイパーフィードバックエレキモンバーストモード [ageageageageageageageageageageageageageageageageageageageage] 2019/12/14(土)16:21 ID:ZdbDCgAD(1) AAS
デジモン(デジタルモンスター)シリーズのアニメの最新作を放送してね
デジモン(デジタルモンスター)シリーズのアニメの完全新作を放送してね
デジモン(デジタルモンスター)シリーズのアニメの新作を放送してね
デジモン(デジタルモンスター)シリーズのアニメの次期作を放送してね
デジモン(デジタルモンスター)シリーズのアニメの次回作を放送してね
デジモン(デジタルモンスター)シリーズのアニメの続編を放送してね
デジモン(デジタルモンスター)シリーズのアニメの続きを放送してね
省25

211: 2020/05/08(金)02:41 ID:LSUa2ZRk(1) AAS
何でこんなになるまで放っておいたんだ！

上下前次 1-新書関写板覧索設栞歴

あと 13 ﾚｽあります
ｽﾚ情報赤ﾚｽ抽出画像ﾚｽ抽出歴の未読ｽﾚ AAｻﾑﾈｲﾙ

ぬこの手ぬこTOP 0.164s*