[過去ログ] 知能研究スレ2©2ch.net (224レス)
上下前次1-新
このスレッドは過去ログ倉庫に格納されています。
次スレ検索 歴削→次スレ 栞削→次スレ 過去ログメニュー
168(1): >>167 2018/08/27(月)09:42 ID:Zq8VRJ9K(14/50) AAS
BEアイコン:nida.gif
これに照らして、純粋な探索エージェントの行動を研究したい場合、エージェントにバイアスをかけてはいけません。
無限の地平線の設定では(つまり、ディスカウントされたリターンはエピソードの終わりに切り捨てられず、バリュー関数を使用して常にブートストラップされます)、死は退屈な場合にだけ避けるべきエージェントへのもう一つの移行です。
したがって、エージェントの探索の利得を単に死のシグナルの利得から分離するために、「done」を削除しました。
実際には、エージェントはゲームの中で死ぬことを避けることができます。それは、ゲームの始め、何度も何度も見られた領域、そしてダイナミクスをうまく予測できる場所に戻ってくるからです。
この微妙さは、外的報酬のない実験を示す以前の研究によって無視されてきた。
3
実験
すべての実験では、ポリシーと埋め込みネットワークの両方がピクセルから直接的に機能します。
ハイパーパラメータやアーキテクチャなどの実装の詳細については、付録Aを参照してください。
別段の記載がない限り、すべての曲線は、異なる種子を用いた3回のランの平均であり、斜線領域は平均の標準誤差である。
私たちは、ウェブサイト上のすべての環境で遊ぶ純粋に興味のあるエージェントのコードとビデオをリリースしました2。
上下前次1-新書関写板覧索設栞歴
あと 56 レスあります
スレ情報 赤レス抽出 画像レス抽出 歴の未読スレ AAサムネイル
ぬこの手 ぬこTOP 0.014s