[過去ログ] 【統計分析】機械学習・データマイニング22 (1002レス)
前次1-
抽出解除 必死チェッカー(本家) (べ) 自ID レス栞 あぼーん

このスレッドは過去ログ倉庫に格納されています。
次スレ検索 歴削→次スレ 栞削→次スレ 過去ログメニュー
870: (ワッチョイ 5e66-erI5) 2019/02/23(土)13:49 ID:px1wMGql0(1) AAS
強化学習の state-value の式について質問です。
スレチでしたらご指摘ください。

「Reinforcement Learning: An Introduction」のPDFを読んでいます。
外部リンク[html]:incompleteideas.net

59ページ目にstate-valueが自己再帰の形で表せる事を示した式がありますが、
この式の2行目から3行目に式変形できる理由が分かりません。

角括弧の中の Rt+1 が r になるのは分かるのですが、
なぜ Gt+1 が Eπ[G+1 | St+1 = s'] になるのでしょうか。

この辺りのことを説明したwebページや書籍の紹介だけでも構いません。
前次1-
スレ情報 赤レス抽出 画像レス抽出 歴の未読スレ

ぬこの手 ぬこTOP 0.034s