[過去ログ] NGワード絞り込みスレッド★119 (655レス)
前次1-
抽出解除 必死チェッカー(本家) (べ) 自ID レス栞 あぼーん

このスレッドは過去ログ倉庫に格納されています。
次スレ検索 歴削→次スレ 栞削→次スレ 過去ログメニュー
599: YAMAGUTIseisei (ワッチョイ 5e48-baM0) 2018/08/27(月)10:00 ID:sC3a+vHE0(1/2) BE AAS
BEアイコン:nida.gif
Other methods of exploration are designed to work in combination with maximizing a reward function, such as those utilizing uncertainty about value function estimates [5, 23], or those using perturbations of the policy for exploration [8, 29].
他の探査方法は、価値関数推定値に関する不確実性を利用する報酬関数や探索のための方針の摂動を用いる報酬関数などの報酬関数を最大化することと組み合わせて機能するように設計されている[8]、[29]。
Schmidhuber [37]とOudeyer [25]、OudeyerとKaplan [26]は、内在的動機づけへのアプローチに関する初期の研究のいくつかについて素晴らしいレビューを提供する。
Alternative methods of exploration include Sukhbaatar et al.
探査の代替方法には、Sukhbaatar et al。
[45] where they utilize an adversarial game between two agents for exploration.
省6
600: YAMAGUTIseisei (ワッチョイ 5e48-baM0) 2018/08/27(月)10:00 ID:sC3a+vHE0(2/2) BE AAS
BEアイコン:nida.gif
In Gregor et al.
Gregor et al。
[10], they optimize a quantity called empowerment which is a measurement of the control an agent has over the state.
[10]、エージェントはエンパワーメントと呼ばれる量を最適化します。これは、エージェントがその状態を超えた制御の測定値です。
In a concurrent work, diversity is used as a measure to learn skills without reward functions Eysenbach et al.
並行作業では、報酬機能なしにスキルを習得するための手段として多様性が使用されます。Eysenbach et al。
省7
前次1-
スレ情報 赤レス抽出 画像レス抽出 歴の未読スレ AAサムネイル

ぬこの手 ぬこTOP 0.026s