[過去ログ] 【統計分析】機械学習・データマイニング30 (1002レス)
前次1-
抽出解除 レス栞 あぼーん

このスレッドは過去ログ倉庫に格納されています。
次スレ検索 歴削→次スレ 栞削→次スレ 過去ログメニュー
325: デフォルトの名無しさん (ワッチョイ 75f3-6epr [220.211.225.116]) [] 2021/04/04(日)12:30 ID:rdKx+7Rr0(1)
ebmtの概念は、深層学習モデル以前のSMT的ものなので、knnmtとは別物だと思う。
Google scholarで論文を探してみたが、Sumita+ebmtだと2004年くらいに
1件ヒットするだけで、恐らく、ebmt+nmtのテーマではまだ論文発表はしてない。
記事は、一般論的な書き方をしてるが、ebmtを取り込んだのはNICTの翻訳エンジン
であり、この流れが広がっていくかは別問題。
NICTのアプローチはどちらかというと、モデルパラダイムよりもデータ重視の傾向が
強い。ただし、NICのデータパラダイムは、最近Andrew Ngが提唱してるデータ
重視論とは異なり、MTの精度向上を専門辞書の整備や、分野別コーパスなど
人手をかけることで解決するというかなり泥臭いやり方となる。ebmtを持ち出したの
も多分、それと同じ。
375: デフォルトの名無しさん (ワッチョイ 11f3-+xwA [220.211.225.116]) [] 2021/04/17(土)04:06 ID:9pKeriUl0(1)
クラスター分析は深層学習以前の統計解析が主流だった頃のNLPでよく使った。
よく使ったのが、大量の学術論文をベイズ分類器でテーマ別に分類して、分類後の
集合をさらにクラスター分析で類似文書ごとにまとめるというもの。
クラスター分析は、BOW的なデータ構造であればなんでも自動分類してくれるので
例えば画像ファイルからカラーヒストグラムを生成して、色分類ごとの色強度のデータ
ファイルを作れば、画像分類とかもできたので面白かった。
あと、クラスター分析とは違うが、最近、 誰かがNLPにおける教師なし学習の
新潮流について触れて、例えば、よくあるワードベクターの2次元マップ(Word embedding)
を作り、英語とドイツ語のマップを重ねると英語とドイツ語の対訳辞書を自動生成
することも可能になるはずとか話していた。教師なし学習で対訳辞書みたいなものが
自動生成できるかもしれないという考え方は斬新だなと思った。
477
(2): デフォルトの名無しさん (ワッチョイ cff3-Iq6q [220.211.225.116]) [] 2021/04/25(日)12:26 ID:0okbEX8U0(1)
ワクチン開発でDNNを活用するというのは異常に難易度が高いよ。
例えば、コロナウィルスの場合、COVIDウィルスのスパイクのタンパク質配列とかを
学習データに使用するけど、普通は、この種のウィルス特有のデータを10種類以上
選択する必要がある。このデータ選択は、ウィルスの専門知識がないと無理。
状況によっては公開データが用意されていない場合もあるので、その場合は、
研究室でタンパク質配列とかRNA配列とかを解読する作業も必要となってくる。
さらに、DNNに関しても、既存のネットワークを流用することはできないので、
新規にネットワークのアルゴリズムを作る必要もある。この作業は、普通のAI
エンジニアでは無理。更に、機械学習に関してもかなり膨大なGPUリソースが
必要となる。また、専用のネットワークは動かしてみた上で修正を入れるという
作業が発生するため、TPUv3x1024くらいのリソースを開発期間の数ヶ月に渡って、
占有するという状況が発生する。開発要員としてはウイルス学、AIの各領域のポスドク
クラスの専門研究者を10人くらい集めて、さらにクラウド費用として数億円くらいアサイン
する必要があるかもね。まあ、これはほとんど不可能な要件なんだけどね。
前次1-
スレ情報 赤レス抽出 画像レス抽出 歴の未読スレ AAサムネイル

ぬこの手 ぬこTOP 0.045s