[過去ログ] 【統計分析】機械学習・データマイニング30 (1002レス)
前次1-
抽出解除 レス栞 あぼーん

このスレッドは過去ログ倉庫に格納されています。
次スレ検索 歴削→次スレ 栞削→次スレ 過去ログメニュー
リロード規制です。10分ほどで解除するので、他のブラウザへ避難してください。
584
(2): (ワッチョイ 43ca-C6vo [182.168.51.6]) 2021/06/04(金)23:13 ID:K7oG2oyc0(1/2) AAS
>>577
1DKと2Kの区別は、不動産業界ではあるかもしれないが、不動産サイトを検索する
一般人にとっては主観的概念でしかない。したがって、業界の基準をそのまま当て
はめると一般人の検索行動と乖離が生じ、サイトの定着率が悪化する可能性がある。
そのため、検索サイトでは従来からアクセスログを解析することで、時空間的に
近い検索を「近い概念」と考えて、ユーザーに明示的に示す手法がとられてきた。
これはいわゆる「この検索をした人はこういう検索もしています」とか「この
商品を見た人はこの商品もみています」というよくあるレコメンドのやり方となる。
このレコメンドは、Wilson score intervalという統計解析手法に基づいており、
検索履歴を時系列で扱うことにより、特定の検索A1とそれ以降に行った同一人の検索
A2/A3...の近似距離値を自然対数のカーブのように指数的に低減させていくことで
A1に近いらしい他の検索入力を求めるというものとなる。
ただし、このアクセスログ解析法は、特定の検索の後に行われた検索パターンを
逐次、解析する必要があるため、大規模サイトの場合、計算量が膨大になりすぎる
傾向があり、大手ではこのためだけに解析用のクラスタコンピューターを導入する
ケースもあった。上の論文では機械学習を新手法としているのはそのためとなる。
585: (ワッチョイ 43ca-C6vo [182.168.51.6]) 2021/06/04(金)23:18 ID:K7oG2oyc0(2/2) AAS
誤)特定の検索A1とそれ以降に行った同一人の検索
正)特定の検索ワードA1と同じ検索を行った全ユーザーの検索
963: (ワッチョイ 3dca-yDFm [182.168.51.6]) 2021/08/31(火)04:15 ID:D+Jl3XmV0(1/2) AAS
>>950
spaCyかな。利点はGPUを使えるので圧倒的に早いこと。欠点はPython依存。
964: (ワッチョイ 3dca-yDFm [182.168.51.6]) 2021/08/31(火)04:39 ID:D+Jl3XmV0(2/2) AAS
>>958
個人的にはあれはよくできてると思う。
まず、要約はextraction法とabstraction法の2種類がある。
extractionはbowを作って単語の頻出度で統計処理することでウェイトの高いセンテンスを抽出する。
一方、abstractionは要約済みの学習データをseq2seqで機械学習させることで、要約エンジンを作る。
松尾研のベンチャーが作ったのは、後者のabstractionの方で、日本語でabstractiono方式の要約エンジン
というのはほとんど見たことがない。
ただ、実際に売れるかどうかは別。
この種のシステムは、を企業向けに販売しようと思ってもクラウドでAPIで提供する方式の場合だと
企業は内部情報が外部に流出することになるのでまず100%導入はしない。
一般的なのは、企業が利用してるクラウドの中にシステム用のサーバーを立ち上げるか、
企業のイントラネットの中に専用サーバーを立ち上げることなんだが、
これをやるとSI業者には勝てない。
また、下手にこの領域に踏み込むとSI 業者が海外製の要約エンジンを日本語化して販売
を始めたりするので、敵を誘い込むことになる。
973: (ワッチョイ 85ca-mUqo [182.168.51.6]) 2021/09/04(土)02:49 ID:9cArpdYt0(1/2) AAS
>>877
Rejected internal applicants twice as likely to quit
doi.org/10.5465/amj.2018.1015
974: (ワッチョイ 85ca-mUqo [182.168.51.6]) 2021/09/04(土)04:02 ID:9cArpdYt0(2/2) AAS
>>965
いずれにしてもSeqモデルによる実装は簡単だから、要約済みの学習データさえ準備できれば
要約システムは簡単に構築可能。無料で出す分にはみんなは面白がって使うだろうけど、有料提供
となると、かなり困難に直面するんじゃないかと思っただけ。
Seqモデルは、かなり一般化してきてるので、NLP専攻の学卒者だったら、十分に構築は可能。
これが機械翻訳とかだと、かなり膨大な学習データが必要となるので、参入障壁になるが、
自動要約だと、元の学習量もしれてるので、NTTデータや富士通あたりだと多分、簡単に作れる。
また、要約の精度は学習データに依存するので、どこまで精度の高いデータを作れるかは、
最終的には開発元の資本力によって決まることになる。
前次1-
スレ情報 赤レス抽出 画像レス抽出 歴の未読スレ

ぬこの手 ぬこTOP 0.039s