【文字認識】OCRソフト【自炊】 [無断転載禁止]©2ch.net

[過去ﾛｸﾞ] 【文字認識】OCRソフト【自炊】 [無断転載禁止]©2ch.net (882ﾚｽ)
上下前次1-新
抽出解除ﾚｽ栞

このｽﾚｯﾄﾞは過去ﾛｸﾞ倉庫に格納されています｡
次ｽﾚ検索歴削→次ｽﾚ栞削→次ｽﾚ過去ﾛｸﾞﾒﾆｭｰ

16(3): 名無しさん＠お腹いっぱい。 [sage] 2017/01/03(火)01:48 ID:/4niW42M0(1)
tesseract-ocrの認識率を下げないための工夫

tesseract-ocrで検索すると、認識率を上げるための学習ファイルの作り方を指南したサイトが
それなりにヒットしますが、やはり自炊を目的とした日本語縦書き300ページ程度をOCRするため
の指南役サイトは見たことがありません。仕方なく自分で試行錯誤した結果、

1.スキャンする時に解像度300dpi以上の.tiff形式で行う

※当方の環境はlinux上でtesseract-ocr3.03と3.04を試しています。

構造上ノイズだらけのjpegだと肉眼には優しくてもソフトウェアにとってはそうではないみたい
で、当初オフィス用複合機のPDFでスキャンしてjpegに変換して読み込ませてみたのですが、そ
の結果は惨憺たるものでした。

所詮はフリーソフトかとその時は思いましたが、ふと.tiffでスキャンしてOCRをかけたところ、
認識率が飛躍的に向上しました。

ちなみに.tiffには拡張子が同じでも複数規格があり、
FujiXeroxの複合機でスキャンする＝CCITT Bilevel Encodings G4 FAX T.6
リコーの複合機でスキャンする＝CCITT Bilevel Encodings G3 FAX T.4
という圧縮がかかった.tiffファイルが得られます。

どちらも黒白二値で圧縮された形式なので、ページ一枚がjpegだと256KB程度がtiff-G4だと
25.6KB程度、tiff-G3だとその四割増し程度になりますが、tiff同士の認識率に違いはありませ
んでした。

なお他形式やG3からG4への変換は、IrvanVeiwとかLinuxだとImageMagickで一括変換できます
が、元がjpegからだと失われた情報が戻らないので認識率は下がります。

17(1): 名無しさん＠お腹いっぱい。 [] 2017/01/03(火)02:13 ID:R8/S2ECj0(1)
>>16
いやtesseractは認識精度低いから・・・

Cloud Vision使えよ

高画質画像もいらないから

18: 名無しさん＠お腹いっぱい。 [sage] 2017/01/04(水)00:37 ID:orymQRzs0(1)
>>16
こういう検証報告はすごい有り難いね
参考にします

19: 名無しさん＠お腹いっぱい。 [sage] 2017/01/05(木)20:18 ID:8PejRFef0(1/3)
ちなみに>16でスキャンする元ネタをjpeg→tiffに変更してどのくらい変わったかというと、

文中の“由美子”というヒロインの名前が、from-jpegスキャンからだと、

由美F 　　由美汗　　由芙干　　山芙杆　　…芙杆
由美P 　　由美浙　　由芙折　　山芙F 　　…芙浙
由美f 　　由美肝　　由芙於　　山芙f 　　…芙肝
由美そ　　由美託　　由芙旛　　山芙そ　　…芙託
由美ア　　由美醇　　由芙杆　　山芙ヂ　　…美F
由美チ　　由美干　　由芙浙　　山芙浙　　…美f
由美ヂ　　由美折　　由芙F 　　山芙肝　　…美肝
由美モ　　由美杆　　由芙f 　　山芙軒　　…美チ
由美丑　　由美壬　　由芙肝　　…芙F 　　…美竚
由美予　　由芙チ　　山美折　　…芙P 　　…美升
由美争　　由芙ヂ　　山美肝　　…芙f 　　…美壬
由美十　　由芙丑　　山美託　　…芙チ　　…美折
由美千　　由芙予　　山美升　　…芙升
由美升　　由芙十　　山芙丑　　…芙折
由美寶　　由芙升　　山芙十　　…芙旛

これだけ豊富なバリエーション()が発生しましたが、from-tiffスキャンからだとほぼブレ
ることなく“由美子”になったので、
「こ、これはハトを殺されたタイソン並みにスゴいのではないか？」と
tesseract-ocrの秘めた実力に驚愕したものでした。

つまり条件さえ揃えばtesseract-ocrの認識率はけして悪くないというか、むしろ認識結果が
思わしくない場合は何らかの事情でスキャンする際にスポイルされた可能性があると考えて、
条件を変えてスキャンしてみるのもひとつの手かもしれません。

上下前次1-新書関写板覧索設栞歴

ｽﾚ情報赤ﾚｽ抽出画像ﾚｽ抽出歴の未読ｽﾚ AAｻﾑﾈｲﾙ

ぬこの手ぬこTOP 0.040s