[過去ログ]
【統計分析】機械学習・データマイニング26 (1002レス)
【統計分析】機械学習・データマイニング26 http://mevius.5ch.net/test/read.cgi/tech/1568506986/
上
下
前
次
1-
新
通常表示
512バイト分割
レス栞
このスレッドは過去ログ倉庫に格納されています。
次スレ検索
歴削→次スレ
栞削→次スレ
過去ログメニュー
182: デフォルトの名無しさん (アウアウクー MMe1-o74w [36.11.224.230]) [sage] 2019/10/10(木) 10:23:07.08 ID:H/x/U9NKM 母集団の分布が正規分布に従うと"仮定"すれば、間違ってない意見だな 仮定すれば http://mevius.5ch.net/test/read.cgi/tech/1568506986/182
183: デフォルトの名無しさん (アウアウクー MMe1-o74w [36.11.224.230]) [sage] 2019/10/10(木) 10:25:56.74 ID:H/x/U9NKM って、もとのグラフをみたらbin数がやばかった・・・ http://mevius.5ch.net/test/read.cgi/tech/1568506986/183
184: デフォルトの名無しさん (アウアウエー Sa13-NJTS [111.239.59.242]) [sage] 2019/10/10(木) 14:07:25.58 ID:9SEfnsqfa 標本抽出の仕方がランダムサンプリングで 母集団が正規分布の時だけに成り立つことを言っているな http://mevius.5ch.net/test/read.cgi/tech/1568506986/184
185: デフォルトの名無しさん (ワッチョイ 0da5-X53N [42.127.86.111]) [sage] 2019/10/10(木) 18:30:07.85 ID:7gKn5Xz20 競馬あてて見たいんだけど特徴量として前5走を使いたいんだけどどんな実装にすればいいのかな どなたかヒントいただけないでしょうか http://mevius.5ch.net/test/read.cgi/tech/1568506986/185
186: デフォルトの名無しさん (ワイーワ2 FF93-1wBF [103.5.142.122]) [] 2019/10/10(木) 18:50:01.66 ID:i+8+28k+F 前走の結果より血統でやった方が良いって先輩は言ってた http://mevius.5ch.net/test/read.cgi/tech/1568506986/186
187: デフォルトの名無しさん (ワッチョイ e377-vt6R [115.38.57.104]) [sage] 2019/10/10(木) 18:56:00.12 ID:cL0M7hVK0 入力で与えるのが出馬一覧とかで順番の意味を無くしたいならPointNetとかの構造を真似したりすればいいんじゃない http://mevius.5ch.net/test/read.cgi/tech/1568506986/187
188: デフォルトの名無しさん (ワッチョイ 9501-o74w [126.25.129.72]) [sage] 2019/10/10(木) 21:27:00.23 ID:aZnaY5Is0 >>180 あれ、逆にわかりずらいと思うんだが。 環境設定がすげーわかりずれーわ。 http://mevius.5ch.net/test/read.cgi/tech/1568506986/188
189: デフォルトの名無しさん (アウアウエー Sa13-NJTS [111.239.56.45]) [sage] 2019/10/10(木) 23:11:06.33 ID:bdrwblpoa >>185 ググればソースコード付きでいろいろ出てくるが http://mevius.5ch.net/test/read.cgi/tech/1568506986/189
190: デフォルトの名無しさん (ワッチョイ cb10-vzjJ [153.131.102.129]) [] 2019/10/11(金) 08:18:38.76 ID:mCGV3tUv0 >>184 中心極限定理の話しで 標本数を30にした平均値の分布は 元の分布に関係なく正規分布とみなせるって事だよな 食べログの分布もその分布から標本を30取り出して 平均値を求める操作を10000回繰り返して 平均値の分布を描くと正規分布に近くなるはず http://mevius.5ch.net/test/read.cgi/tech/1568506986/190
191: デフォルトの名無しさん (ワッチョイ 0da5-X53N [42.127.86.111]) [sage] 2019/10/11(金) 11:53:47.65 ID:BrwAZKhG0 >>186 血統も絡めてるよていだけど、前走も大事かなと思いまして。 >>187 前走ではAの馬に負けてるから今回も厳しそう、とかの特徴を抽出したいなと思いまして、順序はそれなりに大事なのかなと考えています。 >>189 巷にあるコードよりも、より順序を重視する方法が無いものかなと。 数値やカテゴリーなどの特徴ではなく、多次元特徴を一つの特徴量として扱うことができないかなという感じです。 http://mevius.5ch.net/test/read.cgi/tech/1568506986/191
192: デフォルトの名無しさん (ワイーワ2 FF93-1wBF [103.5.142.233]) [] 2019/10/11(金) 11:58:01.09 ID:hkXt1GtmF 重量ハンデは? http://mevius.5ch.net/test/read.cgi/tech/1568506986/192
193: デフォルトの名無しさん (アウアウクー MMe1-o74w [36.11.225.81]) [sage] 2019/10/11(金) 14:41:23.78 ID:uWNk0GcMM アルバイトでデータ解析やってる人間の意見としては、 とにかく役立ちそうな特徴量を選択せずにぶち込めるだけぶち込んで、 一度xgbかcgbを回してみればいいんじゃない そうすれば重要な特徴量が何か抽出できるでしょ 話はそれからよ 勝ち馬をよく当てる人が何を大切にしているか調べることからはじめるべき http://mevius.5ch.net/test/read.cgi/tech/1568506986/193
194: デフォルトの名無しさん (ワッチョイ 7dda-C28+ [114.187.197.203]) [sage] 2019/10/12(土) 10:11:52.93 ID:UGc1lgsI0 馬を株の銘柄に置き換えてリターンとリスク(分散)を元に 共分散使って有効フロンティアの曲線を引いて 無差別曲線と接する部分の比を見てパーセンテージの高い順に馬を買うってのは? http://mevius.5ch.net/test/read.cgi/tech/1568506986/194
195: デフォルトの名無しさん (ワッチョイ 653c-b92j [118.240.95.156]) [] 2019/10/13(日) 00:20:47.58 ID:kaSZg9r20 >>184 すでに指摘されているが、母集団の分布は正規分布である必要はない >>190 中心極限定理の話(前半の話)はそうだけども、後半の部分は何が言いたいのかよく分からない 食べログの評点は一人当たり整数値の1~5を付けられる(ある店舗における点数分布をAとする) 各店舗は添付ごとにN人の評価の平均を平均点として算出する(各店舗の平均点分布をBとし、これが話題となっている分布) Aの採点を行うのが一般人であると仮定すると、各店舗は同一の母集団確率分布に従うものと仮定でき、各店舗の確率変数X1, X2, …, XNは同一の母集団確率分布からのランダムサンプルと考えられる 大数の法則により、標本平均(分布Bのこと)は母集団の平均に近づき正規分布になる 標本数30以上というのはNが30以上ということで、この部分は残念ながら自明ではない ある焼肉屋の評価は67件から構成されているが、別の焼肉屋は2件となっている つまり最大限「食べログ」を擁護するのであれば、標本数が30以上ではないため前提条件が間違っている、ということだろうか http://mevius.5ch.net/test/read.cgi/tech/1568506986/195
196: デフォルトの名無しさん (アウアウカー Sa51-CdT3 [182.251.152.98]) [sage] 2019/10/13(日) 00:57:27.47 ID:0ePwtCDKa 各店の平均化する前の採点が同一母集団に従うという仮定に無理がありすぎる 例えばラーメン屋とスイーツ店の採点者が同じ傾向の採点するなんて仮定は不自然 http://mevius.5ch.net/test/read.cgi/tech/1568506986/196
197: デフォルトの名無しさん (ワッチョイ 653c-3Hkb [118.240.95.156]) [sage] 2019/10/13(日) 00:59:42.54 ID:kaSZg9r20 >>196 すまん、焼肉屋しか見てなかった 実にその通り http://mevius.5ch.net/test/read.cgi/tech/1568506986/197
198: デフォルトの名無しさん (アウアウウー Sac9-KA+R [106.161.128.168]) [] 2019/10/13(日) 06:54:46.01 ID:ObLeezZqa >>159 Juliaでしょう。 http://mevius.5ch.net/test/read.cgi/tech/1568506986/198
199: デフォルトの名無しさん (アウアウウー Sac9-KA+R [106.161.128.168]) [] 2019/10/13(日) 06:56:55.49 ID:ObLeezZqa >>160 Flux http://mevius.5ch.net/test/read.cgi/tech/1568506986/199
200: デフォルトの名無しさん (ワッチョイ cb10-vzjJ [153.131.102.129]) [] 2019/10/13(日) 07:21:13.99 ID:Fxu1r5BT0 >>195 大数の法則は標本数を増やすと標本平均が母平均に近づくということ 中心極限定理は平均値の分布に関する定理 食べログの評価の数が30になった時点で平均値を計算して 一度リセットするのを繰り返す その平均値の分布は正規分布に近づく 今の評価の分布がその店に行く人の評価の分布を表している のであれば今の評価分布から30標本を取って平均値を求める 操作を復元抽出で繰り返しても同じような結果になるだろう http://mevius.5ch.net/test/read.cgi/tech/1568506986/200
201: デフォルトの名無しさん (ワッチョイ cb10-vzjJ [153.131.102.129]) [] 2019/10/13(日) 07:23:54.12 ID:Fxu1r5BT0 ある店の評価分布は標本数が多くなっても正規分布になるとは言えない 分散が広くなるのはその店のサービスや品質が安定していない事が原因になりうる その店の特徴が分布に反映される 同様に店を評価する側の特徴も反映されるだろう http://mevius.5ch.net/test/read.cgi/tech/1568506986/201
202: デフォルトの名無しさん (ブーイモ MM89-ToAo [202.214.125.165]) [sage] 2019/10/13(日) 07:58:04.98 ID:S6cUkNQoM 深層学習の凄いことのひとつは特徴量を人が設計する必要がない、と本とかに書いてありますが、どう理解すればいいのか分からず教えてください! ここでいう深層学習とはニューラルネットのことですか?(線形回帰やSVMと違って説明変数を人間が決めてないから? ) http://mevius.5ch.net/test/read.cgi/tech/1568506986/202
203: デフォルトの名無しさん (ワッチョイ 8302-o74w [101.142.8.160]) [sage] 2019/10/13(日) 08:07:52.14 ID:A69S9ntC0 レビューを投稿する行動を取る時点で母集団にサンプルバイアス http://mevius.5ch.net/test/read.cgi/tech/1568506986/203
204: デフォルトの名無しさん (ワッチョイ 653c-3Hkb [118.240.95.156]) [sage] 2019/10/13(日) 08:55:43.76 ID:kaSZg9r20 >>201 言ってることの一つ一つは正しいことは理解できるんだけど、何が言いたいのか理解できないんだ 食べログが評価を操作しているかどうか、は今説明してくれた事を駆使すれば判別できるんだろうか? あるいは、Twitterの書き込みのおかしさ、は今説明してくれた事を駆使すれば、ココがおかしいと指摘されるんだろうか http://mevius.5ch.net/test/read.cgi/tech/1568506986/204
205: デフォルトの名無しさん (アウアウカー Sa51-vt6R [182.251.195.232]) [sage] 2019/10/13(日) 09:26:19.57 ID:vNAU+AUMa >>201 各店舗の分散は各店舗の分布には影響しても全店舗の平均値の分布には影響しないでしょ http://mevius.5ch.net/test/read.cgi/tech/1568506986/205
206: デフォルトの名無しさん (アウアウカー Sa51-CdT3 [182.251.154.80]) [sage] 2019/10/13(日) 10:08:21.52 ID:uKg8mtfTa 中心極限定理はあくまで「同一の母集団から得た独立な確率変数であれば、十分な数の平均値を集めたものの分布が正規分布に近似できる」というもの 全店舗の採点者が同一の基準に従う採点を行うという前提が成り立たなければ成立しない定理 http://mevius.5ch.net/test/read.cgi/tech/1568506986/206
207: デフォルトの名無しさん (ワッチョイ 653c-3Hkb [118.240.95.156]) [sage] 2019/10/13(日) 10:56:42.24 ID:kaSZg9r20 >>206 個々の採点者が同じ基準でないのに中心極限定理を持ち出しているのがおかしいと主張しているわけか、なるほど 同じ基準ではないにしろ、少し幅をつけてみよう 個々の採点者はある得点を中心に正規分布で配点する、もしくは一様分布で採点する、あるいは同じ点数しかつけないものとする 正規分布で採点する者は、正規分布の合成が正規分布になることから、平均値の分布もまた正規分布 一様分布で採点する者は、分布関数の底上げにはなるが平均値には影響を与えない 同じ点数しかつけない者も、平均値そのものをずらす事にはなるが正規分布の形は歪めない つまるところ上記の前提が成り立つ場合には、平均値の分布は厳密に正規分布になる 毎回1点で、たまに4点をつけるような人が大量にいないと、この評点と言う平均値分布を正規分布から歪めるのは難しいように思う http://mevius.5ch.net/test/read.cgi/tech/1568506986/207
208: デフォルトの名無しさん (ワッチョイ 9501-o74w [126.25.129.72]) [sage] 2019/10/13(日) 12:13:54.05 ID:pJwii1Hg0 >>202 多分、画像データを深層学習(ニューラルネット)で学習することを念頭に置いてる話だろう。 もっと広い文脈で使えるときもあるがたいていは画像でうまくいった話を誇張して言ってることが多い。 http://mevius.5ch.net/test/read.cgi/tech/1568506986/208
209: デフォルトの名無しさん (ワッチョイ cb10-vzjJ [153.131.102.129]) [] 2019/10/13(日) 12:41:16.37 ID:Fxu1r5BT0 >>205 平均値についても同様の事が言える 仮に評価する側が同じだとしても 店舗の特徴によって分布の形は変わる 分布の形を見る事で店舗の特徴を把握してその店を利用するかどうかを事前に利用者が判断できるようにするサービス が本来目標としたものかもしれない 分布を意図的に操作する事で金儲けに利用しようとした疑いが上がっているという問題だと思う http://mevius.5ch.net/test/read.cgi/tech/1568506986/209
210: デフォルトの名無しさん (ワッチョイ cb10-vzjJ [153.131.102.129]) [] 2019/10/13(日) 12:44:15.71 ID:Fxu1r5BT0 >>207 評価尺度はただの順序尺度で間隔尺度ではないだろう http://mevius.5ch.net/test/read.cgi/tech/1568506986/210
211: デフォルトの名無しさん (トンモー MM59-d/3+ [210.142.95.4]) [] 2019/10/13(日) 12:53:02.60 ID:sm0sVhGqM >>159 大規模ですけどC、C++、アセンブラです。 現在、全部で数百万ステップです http://mevius.5ch.net/test/read.cgi/tech/1568506986/211
メモ帳
(0/65535文字)
上
下
前
次
1-
新
書
関
写
板
覧
索
設
栞
歴
あと 791 レスあります
スレ情報
赤レス抽出
画像レス抽出
歴の未読スレ
Google検索
Wikipedia
ぬこの手
ぬこTOP
0.012s