[過去ログ] 自然言語処理スレッド その4 (503レス)
上下前次1-新
抽出解除 必死チェッカー(本家) (べ) 自ID レス栞 あぼーん
このスレッドは過去ログ倉庫に格納されています。
次スレ検索 歴削→次スレ 栞削→次スレ 過去ログメニュー
238: 2014/11/25(火)09:26 ID:aL15dD2y(1/3) AAS
数学では,ある問題を解くために,その問題を別の問題に翻訳して,もとの問題ではなく
て翻訳された問題の方を解く,という方法がとられることがよくあります.A という問
題を解くために,B という問題が解ければ,その解から A の解も得られることが判って
いるような問題 B をうまく設定して,A を解くかわりに B を解くのです.このような
問題 B を見つけることを,「問題 A を問題 B に帰着させる」と表現します.B は以下の
例でのように単に A の言い替えにすぎない場合もありますが,面白いことには,B は A
よりむしろ難しい問題になっていることも多いのです.これは,問題がやさしいか難しい
かは必ずしも問題が解きやすいかどうかということと一致しない,ということでしょう.
多くの場合,解きたい本来の問題 A を帰着させる先の問題 B は A よりずっと抽象的
な問題になっています.これは,前の節でも述べた,抽象的な設定の方が数学的には扱い
やすい,という現象の現われと言えるでしょう.
もとの問題 A が一般的な(必ずしも数学で扱えそうには見えないような)問題で,そ
れを数学的な問題 B に帰着させているときには,A の数学化(mathem atization)が B で
ある,というような言い方をすることもあります.
一般的な問題を数学的な問題に帰着させる,つまりこの一般的な問題の数学化を行う
例として「ケーニヒスベルクの橋の問題」という名前で知られている問題について考察し
てみることにしましょう.
外部リンク[pdf]:kurt.scitec.kobe-u.ac.jp
243: 2014/11/25(火)14:01 ID:aL15dD2y(2/3) AAS
コーパス開発はオープンにした方がよい、という提言で、全てのやり取りを公開しましょう、
という話なのだが、オープンソースソフトウェア開発のようにソースコードから開発のやり取り
まで全てをオープンにできる場合もあるが、コーパス作成は元のテキストを書いた人がいるわけで、
全てをオープンにできないという性格がどうしてもつきまとう。もちろん再利用可能なテキスト
にアノテーションをすればいいし、テキストを作るところからオープンにもできるわけだが、
それで見えなくなってしまう言語現象も少なくないと思われるし(実際講演の中でも「少数の
事例をどうするか」という問題提起があった)、個人的にはセミクローズド(特定のグループ内で共有)
程度が現実的なところではないかと思う。
それより大事だと思われるのは、そういったコーパス開発に参加する、あるいは門前の小僧状態で聞
くだけでも人が育つことであって、結局ここがボトルネックになり、特定の研究室の出身者しかノウハウがない、
という状況になっているのだと思う。特に個人的にポイントだと思っているのは、先日も書いたような新人
に対して優しいコミュニティになっているかどうかで、自然言語処理自体はかなり新人が入りやすい
コミュニティだと思うのだが、ことコーパスや辞書のようなリソース作成系はかなりハードルが高いと感じる。
コーパス分析やそれを用いた自動解析に関しても、簡単にできるところはすでにやり尽くされていて、
残っているのは難しいところばかりで、簡単なところから練習してウォーミングアップし、
助走期間を設けて本丸に突撃する、というようになっていないのである。もちろん最先端を走る研究者
たちで議論するのはもっとも難しい事例でよいし、むしろそうでないと意味がないのだが、簡単な事例
から始める(あるいは既存のものの分析からではなく、新しいタグ付与にメンターつきで最初から関わる)、
というトレーニングもあってよいと思う。
外部リンク:d.hatena.ne.jp
245(2): 2014/11/25(火)14:29 ID:aL15dD2y(3/3) AAS
コーパス作成について一からやり直したほうがいいかどうかは、悩ましい問題なので一概にどうだ
ということは言いにくいのですが、アノテーション・コーパス作成自体が大きな研究テーマであり、
ベストプラクティス的なものもなければ、少しだけ蓄積されているノウハウ的なものすらチーム
レベルでしか共有できていない(共有するのが難しい)、という状況です。また、やり直したら
すぐコーパスができるかというと、質の高いコーパスを作るには時間が何年もかかるものなので
(自分の携わった NAIST テキストコーパスは5年以上かかっています)、すぐ利用可能にはならないでしょう。
外部リンク:d.hatena.ne.jp
上下前次1-新書関写板覧索設栞歴
スレ情報 赤レス抽出 画像レス抽出 歴の未読スレ
ぬこの手 ぬこTOP 0.015s