[過去ログ] 【統計分析】機械学習・データマイニング30 (1002レス)
前次1-
抽出解除 レス栞

このスレッドは過去ログ倉庫に格納されています。
次スレ検索 歴削→次スレ 栞削→次スレ 過去ログメニュー
577
(4): デフォルトの名無しさん (ワッチョイ cf73-PlKh [153.200.72.220]) [] 2021/06/04(金)10:37 ID:xWxJ1kGR0(1)
人工知能学会の資料に書かれている内容について教えてください。

不動産情報ポータルサイトSUUMOでのデータ活用(※PDFです)
https://jsai.ixsq.nii.ac.jp/ej/?action=repository_action_common_download&item_id=8811&item_no=1&attribute_id=22&file_no=1

2ページ目 > 3.リコメンドシステム > 3.2従来型アプローチ > 1コンテンツベースフィルタリング
「間取りなど、カテゴリー変数を取り入れる場合、類似度を直接に算出できないため、ログから同時検索される確率を類似度として用いている」

↑上記資料には、このように書かれています。

この「カテゴリー変数は、類似度を算出できない」のは、なぜでしょうか?
順序が無いカテゴリー変数は、隣り合った数値であっても近さを表現できないから、という意味でしょうか?

また「ログから同時検索される確率を類似度として用いる」というのは、具体的にどのような処理が想定されますでしょうか?
(経験不足のためイメージできないもので。。。。)
以上、もしわかる方がお見えでしたらご教授いただければ幸いです。
578
(1): デフォルトの名無しさん (ワッチョイ 53dd-8AH/ [122.249.112.164]) [sage] 2021/06/04(金)12:48 ID:9qdJpIYV0(1)
>>577
ログってのが何なのかわからないけど
その文脈で言うとtf-idfのことでは?
それを使ってコサイン類似度を求める
深層学習が出る前はその手法が割と使われてた
580
(1): デフォルトの名無しさん (ワッチョイ cf10-0cyx [153.131.102.129]) [] 2021/06/04(金)13:00 ID:oHDaGQI00(2/4)
>>577
カテゴリ変数の距離を自分で考えてそれが妥当ならそれを採用してもいいんじゃね?
間取りだと1R,1K,1DK,2K,2DK,2LDKとか有るけど
1K,1DK,2K間の各距離をどう計算するのが妥当か
582
(2): デフォルトの名無しさん (テテンテンテン MM7f-9V+W [133.106.240.28]) [sage] 2021/06/04(金)20:55 ID:a6XWEKieM(1)
>>577
カテゴリー変数は量的変数と違って
赤と緑、赤と青どっちが近いかこっちで決めないと行けない
ログは人気投票で赤と緑をクリックする量と赤と青をクリックする量で
決める
584
(2): デフォルトの名無しさん (ワッチョイ 43ca-C6vo [182.168.51.6]) [] 2021/06/04(金)23:13 ID:K7oG2oyc0(1/2)
>>577
1DKと2Kの区別は、不動産業界ではあるかもしれないが、不動産サイトを検索する
一般人にとっては主観的概念でしかない。したがって、業界の基準をそのまま当て
はめると一般人の検索行動と乖離が生じ、サイトの定着率が悪化する可能性がある。
そのため、検索サイトでは従来からアクセスログを解析することで、時空間的に
近い検索を「近い概念」と考えて、ユーザーに明示的に示す手法がとられてきた。
これはいわゆる「この検索をした人はこういう検索もしています」とか「この
商品を見た人はこの商品もみています」というよくあるレコメンドのやり方となる。
このレコメンドは、Wilson score intervalという統計解析手法に基づいており、
検索履歴を時系列で扱うことにより、特定の検索A1とそれ以降に行った同一人の検索
A2/A3...の近似距離値を自然対数のカーブのように指数的に低減させていくことで
A1に近いらしい他の検索入力を求めるというものとなる。
ただし、このアクセスログ解析法は、特定の検索の後に行われた検索パターンを
逐次、解析する必要があるため、大規模サイトの場合、計算量が膨大になりすぎる
傾向があり、大手ではこのためだけに解析用のクラスタコンピューターを導入する
ケースもあった。上の論文では機械学習を新手法としているのはそのためとなる。
前次1-
スレ情報 赤レス抽出 画像レス抽出 歴の未読スレ AAサムネイル

ぬこの手 ぬこTOP 0.038s