[過去ログ] 【統計分析】機械学習・データマイニング22 (1002レス)
上下前次1-新
抽出解除 必死チェッカー(本家) (べ) 自ID レス栞 あぼーん
このスレッドは過去ログ倉庫に格納されています。
次スレ検索 歴削→次スレ 栞削→次スレ 過去ログメニュー
870: (ワッチョイ 5e66-erI5) 2019/02/23(土)13:49 ID:px1wMGql0(1) AAS
強化学習の state-value の式について質問です。
スレチでしたらご指摘ください。
「Reinforcement Learning: An Introduction」のPDFを読んでいます。
外部リンク[html]:incompleteideas.net
59ページ目にstate-valueが自己再帰の形で表せる事を示した式がありますが、
この式の2行目から3行目に式変形できる理由が分かりません。
角括弧の中の Rt+1 が r になるのは分かるのですが、
なぜ Gt+1 が Eπ[G+1 | St+1 = s'] になるのでしょうか。
この辺りのことを説明したwebページや書籍の紹介だけでも構いません。
上下前次1-新書関写板覧索設栞歴
スレ情報 赤レス抽出 画像レス抽出 歴の未読スレ
ぬこの手 ぬこTOP 0.034s