[過去ログ] 【統計分析】機械学習・データマイニング8©2ch.net (1002レス)
前次1-
抽出解除 レス栞

このスレッドは過去ログ倉庫に格納されています。
次スレ検索 歴削→次スレ 栞削→次スレ 過去ログメニュー
837
(1): 2016/07/23(土)12:02 ID:TmMz3ALX(1) AAS
>>833
アルファベットで書かれた文章を見て
英語なのかドイツ語なのかフランス語なのかイタリア語なのかスペイン語なのか
ローマ字なのかどうやったら区別できると思う?
各文字の出現頻度の平均は意味があると思う
839: 2016/07/23(土)21:42 ID:KzKU6eO/(1/2) AAS
>>837 はユニグラムの例だけどその仲間を挙げてみる
Aは有限集合、Rは実数の集合
A^nはAの元を文字とする長さnの文字列の集合(直積)
A^*はAの元を文字とする任意長の文字列の集合(自由モノイド)
RXは集合Xの元を基底とする実数上のベクトル空間(自由ベクトル空間)
ユニグラム = バッグオブA : A^* -> RA
abbca -> 2a + 2b + c
バイグラム: A^* -> RA^2
abbca -> ab + bb + bc + ca
スキップグラム: A^* -> (RA, RA)のテンソル積 = RA^2
abbca -> a(2b) + b(a + b + c) + b(2a + b + c) + c(a + 2b) + a(b + c)
= 3ab + ac + 3ba + 2bb + 2bc + ca + 2cb
富豪グラム: A^* -> RA^*
abbca -> 2a +...+ c + ab +...+ ca + abb +...+ bca +...
計算間違いしてたらゴメン
前次1-
スレ情報 赤レス抽出 画像レス抽出 歴の未読スレ

ぬこの手 ぬこTOP 0.043s