[過去ログ] 知能研究スレ2©2ch.net (224レス)
上下前次1-新
このスレッドは過去ログ倉庫に格納されています。
次スレ検索 歴削→次スレ 栞削→次スレ 過去ログメニュー
176(1): >>174 2018/08/27(月)09:53 ID:Zq8VRJ9K(22/50) AAS
BEアイコン:nida.gif
C)ロボスジャグリング
私たちはRoboschoolフレームワークからPong環境を修正して、1つのパドルと2つのボールを持つようにしました。
アクション空間は2次元で連続しており、アクション空間を次元ごとに5ビンに離散化し、合計25のアクションを与えました。
ポリシーネットワークと埋め込みネットワークの両方は、ピクセル観測空間で訓練されています(注:状態空間ではありません)。
この環境は、ゲームで使用される玩具物理学よりも制御が難しいですが、代理人は、ボールがその領域に入ったときに、ボールを傍受して打つことを学びます。
図3(b)に示すように、環境との相互作用のプロキシとしてボールのバウンス回数を監視しました。
プロジェクトのウェブサイトのビデオを参照してください。
D) Roboschool Ant Robot ? D)Roboschoolアリロボット
また、トラック上に8つの制御可能なジョイントを持つAntで構成されるAnt環境を使用することも検討しました。
私たちは再び行動空間と訓練された政策とネットワークを生のピクセル(状態空間ではない)に離散化しました。
しかし、この場合、外的距離報酬尺度が競馬場に沿って進行するので探査を測定することは容易ではなかったが、純粋に興味のあるエージェントは任意の方向に自由に移動することができる。
私たちは、歩くような行動が純粋に好奇心に基づく訓練から出てくることを見出します。
私たちは、エージェントが環境と意味のあるやりとりをしていることを示す結果ビデオを読者に紹介します。
E)2人用ポンでのマルチエージェントの好奇心
私たちは既に、純粋に好奇心に基づいたエージェントが報酬なしでいくつかのアタリゲームを学ぶことを知っていますが、その対戦相手がハードコーディングされた戦略を持つコンピュータエージェントであることが原因です。
両方のチームが互いに対して好奇心を持って遊ぶようにするとどうなりますか?
調べるには、ゲームの両面(パドルのパドル)が好奇心に基づいたエージェントによって制御されているTwo-player Pongゲームを行います。
エージェントの初期レイヤーを共有し、異なるアクションヘッドを持ちます。つまり、合計アクションスペースは、プレイヤー1のアクションとプレイヤー2のアクションのクロスプロダクトです。
上下前次1-新書関写板覧索設栞歴
あと 48 レスあります
スレ情報 赤レス抽出 画像レス抽出 歴の未読スレ AAサムネイル
ぬこの手 ぬこTOP 0.005s