[過去ログ] 知能研究スレ2©2ch.net (224レス)
1-

このスレッドは過去ログ倉庫に格納されています。
次スレ検索 歴削→次スレ 栞削→次スレ 過去ログメニュー
182
(1): >>181 2018/08/27(月)09:58 ID:Zq8VRJ9K(28/50) AAS
BEアイコン:nida.gif
4
関連作業

本質的な動機づけ:
A family of approaches to intrinsic motivation reward内在的なモチベーション報酬へのアプローチのファミリー
an agent based on prediction error [2, 27, 36, 42], prediction uncertainty [11, 44], or improvement [19, 34] of a forward dynamics model of the environment that gets trained along with the agent 's policy.
エージェントの方針とともに訓練された環境のフォワードダイナミクスモデルの予測誤差[2,27,36,42]、予測不確実性[11,44]、または改善[19,34]に基づくエージェント。
A family of approaches to intrinsic motivation reward an agent based on prediction error , prediction uncertainty , or improvement of a forward dynamics model of the environment that gets trained along with the agent 's policy.
内在的動機づけへのアプローチの一群は、予測誤差、予測​​不確実性、またはエージェントの方針とともに訓練される環境の順動力学モデルの改善に基づいてエージェントに報酬を与える。
その結果、フォワードダイナミクスモデルの予測が困難な領域にエージェントが移動し、モデルはこれらの領域の予測を改善します。
この敵対的および非定常的な力学は複雑な挙動を引き起こす可能性がある。
この分野では、外部報酬が存在しない純粋な探査環境では、ほとんど進んでいません。
Of these mostly closely related are those that use a forward dynamics model of a feature space such as Stadie et al.
これらの大部分は、Stadieらのような特徴空間の順動力学モデルを使用するものである。
[42] where they use autoencoder features, and Pathak et al.
[42]オートエンコーダー機能を使用する場所、Pathak et al。
[27] where they use features trained
[27]訓練された機能を使用する場所
逆動力学の仕事で。
これらは、セクション2.1で詳述されているVAEとIDFメソッドにほぼ対応しています。
1-
あと 42 レスあります
スレ情報 赤レス抽出 画像レス抽出 歴の未読スレ AAサムネイル

ぬこの手 ぬこTOP 0.014s