[過去ログ]
NGワード絞り込みスレッド★119 (655レス)
NGワード絞り込みスレッド★119 http://agree.5ch.net/test/read.cgi/mango/1534289247/
上
下
前次
1-
新
通常表示
512バイト分割
レス栞
抽出解除
必死チェッカー(本家)
(べ)
自ID
レス栞
あぼーん
このスレッドは過去ログ倉庫に格納されています。
次スレ検索
歴削→次スレ
栞削→次スレ
過去ログメニュー
599: YAMAGUTIseisei (ワッチョイ 5e48-baM0) [] 2018/08/27(月) 10:00:02.847533 ID:sC3a+vHE0 BE:138871639-?2BP(0) sssp://img.5ch.net/ico/nida.gif Other methods of exploration are designed to work in combination with maximizing a reward function, such as those utilizing uncertainty about value function estimates [5, 23], or those using perturbations of the policy for exploration [8, 29]. 他の探査方法は、価値関数推定値に関する不確実性を利用する報酬関数や探索のための方針の摂動を用いる報酬関数などの報酬関数を最大化することと組み合わせて機能するように設計されている[8]、[29]。 Schmidhuber [37]とOudeyer [25]、OudeyerとKaplan [26]は、内在的動機づけへのアプローチに関する初期の研究のいくつかについて素晴らしいレビューを提供する。 Alternative methods of exploration include Sukhbaatar et al. 探査の代替方法には、Sukhbaatar et al。 [45] where they utilize an adversarial game between two agents for exploration. [45]彼らは探索のために2つのエージェントの間で敵対的なゲームを利用する。 BBR-MD5:CoPiPe-262801d39457bde644488021ab927da6(NEW) BBS_COPIPE=Lv:0 PID: 7986 [0.167985 sec.] This is Original http://agree.5ch.net/test/read.cgi/mango/1534289247/599
600: YAMAGUTIseisei (ワッチョイ 5e48-baM0) [] 2018/08/27(月) 10:00:34.808807 ID:sC3a+vHE0 BE:138871639-?2BP(0) sssp://img.5ch.net/ico/nida.gif In Gregor et al. Gregor et al。 [10], they optimize a quantity called empowerment which is a measurement of the control an agent has over the state. [10]、エージェントはエンパワーメントと呼ばれる量を最適化します。これは、エージェントがその状態を超えた制御の測定値です。 In a concurrent work, diversity is used as a measure to learn skills without reward functions Eysenbach et al. 並行作業では、報酬機能なしにスキルを習得するための手段として多様性が使用されます。Eysenbach et al。 [7]. [7]。 BBR-MD5:CoPiPe-57e8b5e0d03ca4a31d56ae05372967c5(NEW) BBS_COPIPE=Lv:0 PID: 8030 [0.165033 sec.] This is Original http://agree.5ch.net/test/read.cgi/mango/1534289247/600
メモ帳
(0/65535文字)
上
下
前次
1-
新
書
関
写
板
覧
索
設
栞
歴
スレ情報
赤レス抽出
画像レス抽出
歴の未読スレ
AAサムネイル
Google検索
Wikipedia
ぬこの手
ぬこTOP
1.859s*