[過去ログ] 【統計分析】機械学習・データマイニング29 (1002レス)
上下前次1-新
抽出解除 必死チェッカー(本家) (べ) 自ID レス栞 あぼーん
このスレッドは過去ログ倉庫に格納されています。
次スレ検索 歴削→次スレ 栞削→次スレ 過去ログメニュー
リロード規制です。10分ほどで解除するので、他のブラウザへ避難してください。
805: (ワッチョイ 1355-orE1 [59.147.205.222]) 2020/12/10(木)16:34 ID:7nBpTtaz0(1/7) AAS
茨木俊秀著『AI時代の離散数学』に以下の記述があります.
「ディープラーニングがいろいろな分野で成功を収めているのは,多層NNは,複雑でありながら柔軟な構造をもっているので,全体的な最適解でなくても,
品質の高い局所最適解が多数存在するため,最急降下法によってそれらへ至る経路を見出しやすいからではないかと考えられる.」
確かにそうなのではないかと思わざるを得ないのですが,「品質の高い局所最適解が多数存在する」ことについての研究はあるのでしょうか?
806(1): (ワッチョイ 1355-orE1 [59.147.205.222]) 2020/12/10(木)16:36 ID:7nBpTtaz0(2/7) AAS
損失関数のグラフが一般にどういう形状をしているのかについての研究はないのでしょうか?
810: (ワッチョイ 1355-orE1 [59.147.205.222]) 2020/12/10(木)19:07 ID:7nBpTtaz0(3/7) AAS
>>808
ありがとうございます.
>>809
たとえば,f(x) = a*x^2 + b*x + cという関数のグラフは(a≠0であれば)パラメータによらず放物線です.
811(3): (ワッチョイ 1355-orE1 [59.147.205.222]) 2020/12/10(木)19:11 ID:7nBpTtaz0(4/7) AAS
ところで,ディープラーニングでは,ニューラルネットワークを使って,誤差関数を決めます.
誤差関数を全く別の考え方で決めてやるともっと性能の良い人工知能ができないかと考えて研究している人はいるのでしょうか?
816(2): (ワッチョイ 1355-orE1 [59.147.205.222]) 2020/12/10(木)20:53 ID:7nBpTtaz0(5/7) AAS
>>812
どういうことでしょうか?
>>813-815
ありがとうございました.
岡谷貴之著『深層学習』を読んでいるのですが,確率的勾配降下法についての素朴な質問です.
Nは全訓練サンプルの数です.
E(w) = Σ_{n=1}^{N} E_n(w)
確率的勾配降下法では,極端な場合,サンプル1つだけを使ってパラメータの更新を行うと書いてあります.
たとえば,n=1のサンプルを使って,wを更新したとします.
このとき,E_1(w)の値は,(学習係数の値が十分小さければ,)少し小さくなりますが,他のnについてのE_n(w)の値は逆に増えてしまい,
トータルの誤差E(w)は増えてしまうということになる恐れはないのでしょうか?
岡谷の本にはそのことについて全く触れていません.
818: (ワッチョイ 1355-orE1 [59.147.205.222]) 2020/12/10(木)21:00 ID:7nBpTtaz0(6/7) AAS
バッチ学習をした後で,テストデータに対して,誤差関数の値が本当に小さくなるのかというのと似たような問題かもしれませんね.
820(2): (ワッチョイ 1355-orE1 [59.147.205.222]) 2020/12/10(木)21:15 ID:7nBpTtaz0(7/7) AAS
>>819
確率的勾配降下法によって,極小値を与えるwにかならず近づいていくということは証明できるのでしょうか?
勾配降下法では,学習係数が十分小さければ,単調に誤差が減少していき,最終的に,極小値を与えるwに近づいていくことは自明ですが.
上下前次1-新書関写板覧索設栞歴
スレ情報 赤レス抽出 画像レス抽出 歴の未読スレ
ぬこの手 ぬこTOP 0.029s