【文字認識】OCRソフト【自炊】 [無断転載禁止]©2ch.net

[過去ﾛｸﾞ] 【文字認識】OCRソフト【自炊】 [無断転載禁止]©2ch.net (882ﾚｽ)
上下前次1-新
抽出解除ﾚｽ栞

このｽﾚｯﾄﾞは過去ﾛｸﾞ倉庫に格納されています｡
次ｽﾚ検索歴削→次ｽﾚ栞削→次ｽﾚ過去ﾛｸﾞﾒﾆｭｰ

ﾘﾛｰﾄﾞ規制です｡10分ほどで解除するので､他のﾌﾞﾗｳｻﾞへ避難してください｡

50(2): ハカーを待ちながら [sage] 2018/04/16(月)16:40 ID:jfy34C3d0(1/4)
神のお言葉に従いテストベッド環境に最新版tesseract-ocrをインストールして、250ページほどの
新書をまるごと一冊OCRしてみたのですが、どうもこちらの信心か功夫が足りないのか、正直
『かなり悪くはないがけして手放しで喜べる程良くはなかった』というのが正直な所。

以下、不慣れながらもスクリーンショットを挙げてみたので、見ながら解説。

オフィス用複合機のADFで300dpi・G4圧縮で保存したOCR元のtif画像
　https://imgur.com/FRIY8a9

以前jpgでスキャンしたものより的中率が向上したのとファイルサイズが小さくなるので、
以後ずっとtifで保存するようにしているのだが、元の紙面が経年劣化によるシミ・ソバカス
でクリーンな状態とは言いがたく（だからテキスト化するのだが）、ノイズが少なからず
乗ったままOCRかけるので、今後は別の手段を考えるべきかもしれない。

最新版から一つ前のtesseract-ocr4.0αでOCRした結果のスクリーンショット
　https://imgur.com/21b2PK4

[っ]直後の[は行のひらがな]は必ず[半濁音にする]的な後処理を加えてあるので、厳密には
スタンダードとは言えない。[ぁぃぅぇぉゎ]が混ざるのが地味にいらつく。

最新版から一つ前のtesseract-ocr4.0α＋blacklist（小書きを禁止＋後処理）
　https://imgur.com/6Yh4riW

後処理に加えて、blacklistで[小書きのひらがな]や[日本語の文章に出てこない記号]をはじく
ように事前処理してある。[3点リーダー]を正しく認識できないが、これが現段階の自身でできる
最善のチューニング状態。

54(1): 名無しさん＠お腹いっぱい。 [] 2018/04/16(月)20:17 ID:0tAKuDhz0(1/3)
>>50のいちばん最初の画像を使って、Google Cloud VisionのOCRをかけてみた。

https://imgur.com/a/3TL1i

62(3): 名無しさん＠お腹いっぱい。 [sage] 2018/04/17(火)10:22 ID:HdViBi2B0(1)
>50
＞オフィス用複合機のADFで300dpi・G4圧縮で保存したOCR元のtif画像
https://i.imgur.com/FRIY8a9.png

＞最新版から一つ前のtesseract-ocr4.0αでOCRした結果のスクリーンショット
https://i.imgur.com/21b2PK4.png

＞最新版から一つ前のtesseract-ocr4.0α＋blacklist（小書きを禁止＋後処理）
https://i.imgur.com/6Yh4riW.png

>51
＞最新版のtesseract-ocr4.0β＋jpn+jpn_vertでOCRした結果のスクリーンショット
https://i.imgur.com/OmTeJEv.png

>53
＞ 22ポで画面上に再現した擬似元画像
https://i.imgur.com/Z967Vz9.png

＞それをOCRした結果のスクリーンショット
https://i.imgur.com/Psbsp9m.png

>58
＞同じ元ネタ画像をonlineOCRというサイトに投げてみた結果。
https://i.imgur.com/sEPqF76.png

泥タブから見たらimgurモバイル版が勝手にjpg変換するもんで酷い有様になっとった
直リン＆専ブラのサムネ表示の重要性を痛感するわ

上下前次1-新書関写板覧索設栞歴

ｽﾚ情報赤ﾚｽ抽出画像ﾚｽ抽出歴の未読ｽﾚ AAｻﾑﾈｲﾙ

ぬこの手ぬこTOP 0.112s