[過去ログ] + JavaScript の質問用スレッド vol.141 + (1002レス)
前次1-
抽出解除 レス栞

このスレッドは過去ログ倉庫に格納されています。
次スレ検索 歴削→次スレ 栞削→次スレ 過去ログメニュー
972
(8): 2019/09/20(金)02:28 ID:9OhScHGM(1/6) AAS
質問です

let str1 = '庭には二羽鶏がいるオムライス食べたい2日目';
let str2 = 'にわにはにわにわとりがいるおむらいすたべたいふつかめ';

このstr2のテキストから
str1の中の平仮名以外の文字の読み仮名に該当する部分を取り出したくて試行錯誤してます

str1を平仮名とそれ以外に割って
['庭','には','二羽鶏','がいる','オムライス食','べたい','2日目']

str2の先頭から、配列2つ目の「には」が出てくるまでが
配列1つ目の「庭」の読み仮名だ!
省7
973: 972 2019/09/20(金)02:35 ID:9OhScHGM(2/6) AAS
補足です
str2の平仮名の取得にはgooラボのひらがなAPIを使っています
https://labs.goo.ne.jp/api/jp/hiragana-translation/
977
(1): 2019/09/20(金)06:58 ID:??? AAS
>>972
単純に、漢字とその読み仮名を定義すれば?

"赤色" : [ "あかいろ", "せきしょく" ]

プログラム板のアルゴリズムとか、日本語解析などのスレで聞けば?
978
(1): 2019/09/20(金)07:22 ID:??? AAS
>972
漢字部分を.+に置き換えた正規表現でひとつのマッチは
得られると思う。
ただ、受理できる全パターンの列挙とその中から
正解を選び出す手段は別に必要かな。
979
(1): 2019/09/20(金)07:55 ID:??? AAS
>>972
漢字と平仮名の対応表なしに正解を導き出すのは不可能

庭にわ二羽庭
にわにわにわにわ

プロクラムには、各々の漢字の「にわ」と「にわにわ」を区別出来ない
全パターンを掲示して、人間に正解を選んで貰うのが次善解
981
(2): 972 2019/09/20(金)12:53 ID:9OhScHGM(3/6) AAS
>>977-979
あざます
やっぱ無理ですかねー
なんかこう、確実に一致する平仮名は含まれているので
うまーくマスキング出来ないかなーとか思って始めてみたんですが
984: 972 2019/09/20(金)14:32 ID:9OhScHGM(4/6) AAS
>>983
あざます
形態素解析は>>972よりも先に思いついて、まず品詞で割ってみたんですが
平仮名化の精度が微妙だったんでですよね…
このアプローチも頑張ってみます
985: 972 2019/09/20(金)16:04 ID:9OhScHGM(5/6) AAS
>>983
いろいろゴニョゴニョしたんですが
最初は茶筅の形態素解析を使って失敗していたんですが
gooラボの形態素解析APIは品詞分解した結果に読み仮名が付いていました!
これでかなり精度上がりました
ありがとうございました!
993: 972 2019/09/20(金)20:18 ID:9OhScHGM(6/6) AAS
まあまあ

>>987
あざます
勉強になりました
前次1-
スレ情報 赤レス抽出 画像レス抽出 歴の未読スレ AAサムネイル

ぬこの手 ぬこTOP 1.459s*