JustSystems ATOK総合スレ Part105 (394レス)
前次1-
抽出解除 必死チェッカー(本家) (べ) 自ID レス栞 あぼーん

リロード規制です。10分ほどで解除するので、他のブラウザへ避難してください。
33: 名無しさん@お腹いっぱい。 (ワッチョイ f778-pSf8) [sage] 05/10(土)09:21 ID:xTJPBxJV0(1/2)
>>17
×:(2)awkで行最初の単語を削除しcol2-3.txtに格納
○:(2)awkで行2/3列の単語を取り出しcol2-3.txtに格納

(5)gsedで"ゔ"を"う゛"に置換
ATOKで単語を登録する場合キーボードでは"ゔ"入力できない -> 「vu」は"う゛"
→単語ファイルで登録する場合は"ゔ"でも可能

(8)nkfでmerge.txtをUTF-16/CR変換しDMiME-atok.txtに格納
# UTF-16, CR-LFに変換
 nkf -w16 -c merged.txt > DMiME-atok.txt
UTF-16はファイルの読み書きや通信を行う場合にバイトの順序として上位バイトから送る(UTF-16BE)と下位バイトから送る(UTF-16LE)がある
ATOKはUTF-16LEである(単にUTF-16記述はUTF-16LEを示す)
nkfコマンドで -w16 はUTF-16BEである -> しかし辞書ユーティリティで登録できた w
34
(1): 名無しさん@お腹いっぱい。 (ワッチョイ f746-pSf8) [sage] 05/10(土)20:02 ID:xTJPBxJV0(2/2)
>>9
> ORCA Project: 医療辞書
medic.txt
・読み:半角英数字/記号/全角ひらがな混在
・単語:全角英数字/記号/全角カタカナ/漢字混在
・文字エンコード:UTF-8
・改行コード:LF
これまでの辞書と異なり単語が全角文字になっている
0.5%ぱーとらんちゅうPB   0.5%パートラン注PB 10mL   名詞
読みを全角変換すると"."が不適切な文字になる
単語の英数字は半角が望ましいと思い以前手作業で変換していて諦めた(当時はexcel利用を思いつかなかった)
前次1-
スレ情報 赤レス抽出 画像レス抽出 歴の未読スレ AAサムネイル

ぬこの手 ぬこTOP 0.028s