[過去ログ] 【統計分析】機械学習・データマイニング21 (1002レス)
上下前次1-新
このスレッドは過去ログ倉庫に格納されています。
次スレ検索 歴削→次スレ 栞削→次スレ 過去ログメニュー
869: (アウアウイー Sa45-P9Vx) 2019/01/05(土)17:30 ID:0+KUFWcWa(1/3) AAS
ハングルのテキストマイニングって難しいんよ。
日本語の様にはいかない。言い換えれば出来ることは少ない。そのままでは・・。
なもんで日本語に一度翻訳してから、テキストマイニングをするとか、まともな
解析するにはそういうテクニックもあり得るし、やられている。
日本語のテキストを句読点もなくひらがなで羅列した文章を、テキストマイニング
しなさいとやられてもんにゃ〜、御免こうむるが、ハングルじたいがそういう言語
なんで、相当大変。
ハングルだけでやるときは、辞書が必須なんだろうな・・わからんけど。
じゃないと分かち書きみたいなこともできない。
870: (ワッチョイ 6963-KUhf) 2019/01/05(土)17:43 ID:48TZi3aP0(1) AAS
ハングルは同音異義語の判別がつかないのが問題とどっかで読んだ事がある。
漢字が使えれば簡単に解決出来るのにと大学教授が嘆いていたとか。
871(1): (ワッチョイ 7135-xhm2) 2019/01/05(土)17:45 ID:oKUckmBd0(2/3) AAS
ハングルは実質全部カタカナらしいね
=ハングルハゼンブカタカナラシイネ
そのままではテキストを学習することは無理があると思う。出来るのかな?知らんしヤリたくもないけど
ってかなんで日本語なんだ、英語なら自動で分かち書きだからすごく楽なのに
872(2): (アウアウイー Sa45-P9Vx) 2019/01/05(土)19:04 ID:0+KUFWcWa(2/3) AAS
>>871
英語が楽なのは分かち書きだけで、それ以降は日本語の方が楽。
だから、日本語で構文解析的なテキストマイニングは行われているが
英語ではほとんど行われていない(あきらめてる)。
米国の有名大学などでもチャレンジしているが、すげ〜時間がかかって
使い物にならないんだってさ。
873: (アウアウクー MM45-Yo1t) 2019/01/05(土)19:48 ID:4oqMJYssM(1) AAS
( ´・∀・`)ソーナンダ
874: (エムゾネ FF33-aDDJ) 2019/01/05(土)19:56 ID:2yRzjNJOF(1) AAS
ナーランダ
875: (ワッチョイ 7135-xhm2) 2019/01/05(土)20:14 ID:oKUckmBd0(3/3) AAS
>>872
結局は英語がサイキョサイキョサイキョというね
876(1): (ワッチョイ 5387-VfAK) 2019/01/05(土)20:22 ID:H8Q5/xKS0(1) AAS
>>872
ほー、英語の構文解析のほうが遥かに楽かと思ってたよ。
877(1): (アウアウイー Sa45-P9Vx) 2019/01/05(土)20:44 ID:0+KUFWcWa(3/3) AAS
>>876
いや、私も、以前にとあるこの分やの高名な方から聞いて、初めて知った
次第なんですよ。その面は日本語の方がしっかりしていてやりやすいと。
英語は同じ単語が異なる品詞として頻発してしまう部分に一つの問題があるらしい。
それを、外語大のやはり有名な(これは言語研究の方で有名)方に話したら
至極納得されていた。なもんで、私もそうなんかと思った次第。
ちなみに中国語は、日本語の難しさと英語の難しさの両方を持っているそう。
見方を変えれば、英語は文法など気にせず、データ量に任せて「えいや〜〜」で
機械学習、AIに任せちゃえ!の方が合っているのかもしれないし、実際そういう
流れですよね。
878: (ブーイモ MMdd-XBQp) 2019/01/05(土)21:45 ID:pBvTkhT0M(1) AAS
初子さんが現役ならブレイクスルーしそうな感じ
879(2): (トンモー MM8d-cPPE) 2019/01/05(土)22:13 ID:oxyPFcuMM(1) AAS
言語なんてのは自然発生したものなので
自然そのもの。
自然には矛盾はなく、ただただ複雑なだけ。
よって大量のデータで当てはめを
するしかないのですよ。
構文解析は例外だらけで
あまり役に立ちません。
880: (ワッチョイ 5387-VfAK) 2019/01/06(日)00:45 ID:SRAubW5L0(1/2) AAS
>>877
なるほどね。
881: (ワッチョイ 5387-VfAK) 2019/01/06(日)01:05 ID:SRAubW5L0(2/2) AAS
構文的には日本語のほうが遥かにファジーなのにAI的には格構造の貧弱な英語独特の曖昧さが問題なのか。
面白いっちゃ面白い。独仏は覚えてしまえばまぎれの少ない分英語より易しいとはよく言われたものだ。
882: (ワッチョイ f9b3-nLVr) 2019/01/06(日)01:23 ID:T+vTBvBg0(1) AAS
・形態素解析が楽
・話者が多い
・例外が少ない
これらを満たすのはスペイン語かな
883: (アウアウイー Sa45-P9Vx) 2019/01/06(日)03:19 ID:KoFEEgaia(1) AAS
>>879
将来的な方向性はわかっていての話ですよ
884: (ワッチョイ fbda-mHCk) 2019/01/06(日)04:36 ID:yXbHk54h0(1) AAS
変態素解析
885(2): (ワイーワ2 FF63-aDDJ) 2019/01/06(日)11:39 ID:RBr8Qah/F(1) AAS
Cとかは言語としてどうなん?
886: (ワッチョイ 11da-TgmH) 2019/01/06(日)12:05 ID:3oHTeufm0(1/3) AAS
>>885
どういう側面から聞いてます?
887(1): (ラクッペ MMe5-88M8) 2019/01/06(日)13:02 ID:upyG96ASM(1) AAS
>>885
PythonでできることをC言語でやるなら何でもできる
888: (ワッチョイ 11da-TgmH) 2019/01/06(日)13:04 ID:3oHTeufm0(2/3) AAS
>>879
単純に技術側面だけをみるとそう考えがちなんですが
実際の適用場面では、まるきり新出の熟語などのワードを的確にとらえるには
ラーニング等の時間的負荷が大きく、その辺りをしっかりとしないと本格的な
商用適用ではそれでは不足というこを知っておくと良いかと思います。
889: (ワッチョイ 11da-TgmH) 2019/01/06(日)13:15 ID:3oHTeufm0(3/3) AAS
>>887
そういう話になっちゃうよね。
890: (ワッチョイ 5387-VfAK) 2019/01/06(日)13:18 ID:mLogrqRB0(1) AAS
スレの内容に向いているかといえば日本刀で薪割りする感じかw
言語としてはCが一番好きだけど、学習やマイニングはpythonとかRでやりたい。
891(1): 数おたサラリー (ワッチョイ 0bda-ARQR) 2019/01/06(日)20:51 ID:P5pPVlOx0(1) AAS
I think that that that that that boy wrote is wrong.
あの少年が書いたあのthatは間違っていると思います。
892: (ワッチョイ 8b14-RM76) 2019/01/06(日)21:12 ID:r6TnJvb+0(1) AAS
>>891
Google翻訳すごいな。thatをたくさんくっつけても
スルーしてくれるんだ。
I think that that that boy wrote is wrong.
I think that that that that boy wrote is wrong.
I think that that that that that boy wrote is wrong.
あの少年が書いたのは間違っていると思います。
これでもほぼ同じ意味になってる。すごいや。
I think that that that that that that that that that boy wrote is wrong.
あの少年が書いたことは間違っていると思います。
893: (スプッッ Sd73-udfr) 2019/01/06(日)21:39 ID:5oySTXmOd(1) AAS
勝手に判断するなよという気もするが。
894: (アウアウウー Sa9d-X6x/) 2019/01/06(日)22:00 ID:U7f3R3tEa(1) AAS
たまに二重否定を真逆に翻訳されたりするからな
895(2): (ワッチョイ f9b5-xhm2) 2019/01/06(日)23:07 ID:roeGuIZk0(1) AAS
C言語で機械学習とか毛根のためにやめといた方がいいと思う
896(1): (ササクッテロラ Spc5-ZBCD) 2019/01/06(日)23:15 ID:sqll98Tep(1) AAS
>>895
C言語の機械学習ライブラリがあれば良いんじゃないの?
一々コンパイルしないといけないから面倒だろうけど
897: (ワッチョイ 7bab-GhqG) 2019/01/06(日)23:57 ID:Lb2C/ZsE0(1/2) AAS
Cのレイヤーの低さは大変だよ。
メモリ管理とか機械学習と全然関係のない部分でハマるから。
PythonでもRでも使ってドメインに近い所だけで完結させるのがお得
898: (ワッチョイ 7bab-GhqG) 2019/01/06(日)23:59 ID:Lb2C/ZsE0(2/2) AAS
ああでもIoTのモノ側で組込みCでやらねばいかん世界はあるのかなあ。
上下前次1-新書関写板覧索設栞歴
あと 104 レスあります
スレ情報 赤レス抽出 画像レス抽出 歴の未読スレ
ぬこの手 ぬこTOP 0.023s