【統計分析】機械学習・データマイニング27 (38レス)
上下前次1-新
抽出解除 必死チェッカー(本家) (べ) 自ID レス栞 あぼーん
リロード規制です。10分ほどで解除するので、他のブラウザへ避難してください。
31: デフォルトの名無しさん [] 2022/03/13(日) 22:13:14.92 ID:6Ds930NS(1) AAS
『スッキリわかるPythonによる機械学習入門』という本で、外れ値を削除しています。
特徴量が、'SNS1', 'SNS2', 'actor', 'original'で、目的変数が'sales'のデータがあって、
x軸を'SNS1'、y軸を'sales'とした散布図
x軸を'SNS2'、y軸を'sales'とした散布図
x軸を'actor'、y軸を'sales'とした散布図
x軸を'original'、y軸を'sales'とした散布図
の4つの散布図を描いています。
そして、
x軸を'SNS2'、y軸を'sales'とした散布図を見て、ポツンと他の点から離れたデータを外れ値としています。
その外れ値は、'SNS2'の値が同じである他の点と比べて、'sales'の値が非常に小さいです。
このやり方に疑問を持っています。
外れ値とされた点の'sales'の値が小さいのは、例えば、'actor'の値が非常に小さい(悪い)値であるからかもしれません。
'actor'の値が非常に悪い値ならば、'sales'の値が小さくても何も不自然じゃないわけです。
この本のように、特徴量の1つをx軸に、目的変数をy軸にしてあるデータが外れデータかどうか判断するというのは意味があるんですか?
上下前次1-新書関写板覧索設栞歴
スレ情報 赤レス抽出 画像レス抽出 歴の未読スレ AAサムネイル
ぬこの手 ぬこTOP 0.011s