[過去ログ] 【文字認識】OCRソフト【 自炊 】 [無断転載禁止]©2ch.net (882レス)
上下前次1-新
抽出解除 レス栞
このスレッドは過去ログ倉庫に格納されています。
次スレ検索 歴削→次スレ 栞削→次スレ 過去ログメニュー
リロード規制です。10分ほどで解除するので、他のブラウザへ避難してください。
50(2): ハカーを待ちながら [sage] 2018/04/16(月)16:40 ID:jfy34C3d0(1/4)
神のお言葉に従いテストベッド環境に最新版tesseract-ocrをインストールして、250ページほどの
新書をまるごと一冊OCRしてみたのですが、どうもこちらの信心か功夫が足りないのか、正直
『かなり悪くはないがけして手放しで喜べる程良くはなかった』というのが正直な所。
以下、不慣れながらもスクリーンショットを挙げてみたので、見ながら解説。
オフィス用複合機のADFで300dpi・G4圧縮で保存したOCR元のtif画像
https://imgur.com/FRIY8a9
以前jpgでスキャンしたものより的中率が向上したのとファイルサイズが小さくなるので、
以後ずっとtifで保存するようにしているのだが、元の紙面が経年劣化によるシミ・ソバカス
でクリーンな状態とは言いがたく(だからテキスト化するのだが)、ノイズが少なからず
乗ったままOCRかけるので、今後は別の手段を考えるべきかもしれない。
最新版から一つ前のtesseract-ocr4.0αでOCRした結果のスクリーンショット
https://imgur.com/21b2PK4
[っ]直後の[は行のひらがな]は必ず[半濁音にする]的な後処理を加えてあるので、厳密には
スタンダードとは言えない。[ぁぃぅぇぉゎ]が混ざるのが地味にいらつく。
最新版から一つ前のtesseract-ocr4.0α+blacklist(小書きを禁止+後処理)
https://imgur.com/6Yh4riW
後処理に加えて、blacklistで[小書きのひらがな]や[日本語の文章に出てこない記号]をはじく
ように事前処理してある。[3点リーダー]を正しく認識できないが、これが現段階の自身でできる
最善のチューニング状態。
54(1): 名無しさん@お腹いっぱい。 [] 2018/04/16(月)20:17 ID:0tAKuDhz0(1/3)
>>50のいちばん最初の画像を使って、Google Cloud VisionのOCRをかけてみた。
https://imgur.com/a/3TL1i
62(3): 名無しさん@お腹いっぱい。 [sage] 2018/04/17(火)10:22 ID:HdViBi2B0(1)
>50
> オフィス用複合機のADFで300dpi・G4圧縮で保存したOCR元のtif画像
https://i.imgur.com/FRIY8a9.png
> 最新版から一つ前のtesseract-ocr4.0αでOCRした結果のスクリーンショット
https://i.imgur.com/21b2PK4.png
> 最新版から一つ前のtesseract-ocr4.0α+blacklist(小書きを禁止+後処理)
https://i.imgur.com/6Yh4riW.png
>51
> 最新版のtesseract-ocr4.0β+jpn+jpn_vertでOCRした結果のスクリーンショット
https://i.imgur.com/OmTeJEv.png
>53
> 22ポで画面上に再現した擬似元画像
https://i.imgur.com/Z967Vz9.png
> それをOCRした結果のスクリーンショット
https://i.imgur.com/Psbsp9m.png
>58
> 同じ元ネタ画像をonlineOCRというサイトに投げてみた結果。
https://i.imgur.com/sEPqF76.png
泥タブから見たらimgurモバイル版が勝手にjpg変換するもんで酷い有様になっとった
直リン&専ブラのサムネ表示の重要性を痛感するわ
上下前次1-新書関写板覧索設栞歴
スレ情報 赤レス抽出 画像レス抽出 歴の未読スレ AAサムネイル
ぬこの手 ぬこTOP 0.112s