[過去ログ] 【文字認識】OCRソフト【 自炊 】 [無断転載禁止]©2ch.net (882レス)
上下前次1-新
抽出解除 レス栞
このスレッドは過去ログ倉庫に格納されています。
次スレ検索 歴削→次スレ 栞削→次スレ 過去ログメニュー
53(2): ハカーを待ちながら [sage] 2018/04/16(月)19:28 ID:jfy34C3d0(3/4)
ふと「ノイズの極少ない元画像からならどこまでやれるのか?」を思い立ち、エディタの
画面上に22ポイントで縦書き画面を再現したものをスクリーンショットして、それを元画像
にして神の手版tesseract-ocrでOCRしてみたところ、結果は段落空きと3点リーダー以外ほぼ
完璧と言っていい認識結果となりました。
22ポで画面上に再現した擬似元画像
https://imgur.com/Z967Vz9
それをOCRした結果のスクリーンショット
https://imgur.com/Psbsp9m
つまり最新版のtesseract-ocrは現状でほぼ完全に近い認識能力を持っていると。
……ノイズのない完璧な元画像からであれば。
ただそれは物理の問題とかに出てくる『ここに伸び縮みしない真っ直ぐな棒がある』と同様、
スキャナーを通して読み取る以上現実にそんなノイズのない元画像はあり得ない訳で、あとは
どうやってノイズが少なくなるような加工技術を編み出すか? になっていくのでしょうか。
60(1): 名無しさん@お腹いっぱい。 [sage] 2018/04/17(火)00:21 ID:QTvH3ncM0(1)
>>53
補正に関しては自炊ノウハウも確立してるので自分はわりと楽観してるわ
自力で納得のいく補正かけた後に任意のタイミングで
OCRかけられてPDFにできるというアドバンテージは大きい
程度の低い話ですまんがWindowsでOCR付き自炊PDF作ろうとすると
スキャン時にPDFで保存するか(黄ばみや斜行がひどくても後修正が困難)
後からAcrobatなどの有料ツールでPDF化するか(せっかく補正しても画質劣化する上に認識率も超残念)
ポピュラーな方法がこの2者だったのよね
62(3): 名無しさん@お腹いっぱい。 [sage] 2018/04/17(火)10:22 ID:HdViBi2B0(1)
>50
> オフィス用複合機のADFで300dpi・G4圧縮で保存したOCR元のtif画像
https://i.imgur.com/FRIY8a9.png
> 最新版から一つ前のtesseract-ocr4.0αでOCRした結果のスクリーンショット
https://i.imgur.com/21b2PK4.png
> 最新版から一つ前のtesseract-ocr4.0α+blacklist(小書きを禁止+後処理)
https://i.imgur.com/6Yh4riW.png
>51
> 最新版のtesseract-ocr4.0β+jpn+jpn_vertでOCRした結果のスクリーンショット
https://i.imgur.com/OmTeJEv.png
>53
> 22ポで画面上に再現した擬似元画像
https://i.imgur.com/Z967Vz9.png
> それをOCRした結果のスクリーンショット
https://i.imgur.com/Psbsp9m.png
>58
> 同じ元ネタ画像をonlineOCRというサイトに投げてみた結果。
https://i.imgur.com/sEPqF76.png
泥タブから見たらimgurモバイル版が勝手にjpg変換するもんで酷い有様になっとった
直リン&専ブラのサムネ表示の重要性を痛感するわ
上下前次1-新書関写板覧索設栞歴
スレ情報 赤レス抽出 画像レス抽出 歴の未読スレ AAサムネイル
ぬこの手 ぬこTOP 0.030s