[過去ログ] 【文字認識】OCRソフト【 自炊 】 [無断転載禁止]©2ch.net (882レス)
上下前次1-新
抽出解除 必死チェッカー(本家) (べ) 自ID レス栞 あぼーん
このスレッドは過去ログ倉庫に格納されています。
次スレ検索 歴削→次スレ 栞削→次スレ 過去ログメニュー
743(7): 名無しさん@お腹いっぱい。 [sage] 2023/02/13(月)18:28 ID:0/m2nEld0(1/8)
NDL試した。意外なことにDocuworksより少し良いくらいだった。
ポンコツのeTypistと同じエンジンだから、ゼロックスは最適化が上手ということなのかなあ?
744(1): 743 [sage] 2023/02/13(月)18:31 ID:0/m2nEld0(2/8)
追記
いまみたら、ページ番号にOCR処理をしていない。
これがデフォルトなら画像のトリミング処理を省略できますねえ。
ルビを処理しないという選択できるから、文庫のOCRがはかどるねえ。
746(1): 743 [sage] 2023/02/13(月)19:16 ID:0/m2nEld0(3/8)
>>745
一手間省けるだけでも相当楽になると思います。
いま別の画像にOCRかけたら、NDLの完敗だった。
Docuworksは意外に性能が良くて驚いた。
NDLが優れている方が嬉しいので複雑だなあ。
この画像をGoogel Documentで開いてみます。
747: 743 [sage] 2023/02/13(月)19:21 ID:0/m2nEld0(4/8)
Google Drive上のpdfをGoogle Documentから開いた。
今回もDocuworksの勝ち。
docuworksは7.3でサポートが終わった古いバージョン。
新しいバージョンだともっと優秀なのかなあ?
驚きの大がっかりな結果でした。
Docuworksより誤認識が少ないことを期待したのに、期待外れもいいところでした。
748: 743 [sage] 2023/02/13(月)19:26 ID:0/m2nEld0(5/8)
冷静に考えれば、たった2枚の画像の比較だったので、一般化はしてはいけないと思う。
文庫本はNDLの勝ち。しかし2カ所!マークを1と誤認識しなかっただけの優位性だから大差ない。
イラスト入りで変則的な段組の専門書はDocuworksの圧勝だった。
文庫ならNDLの方がトリム不要で認識率が少し良い。音声化するときはこの少しの差が大きな作業量の差になるから使う価値はあると思う。
749: 743 [sage] 2023/02/13(月)19:33 ID:0/m2nEld0(6/8)
ルビを無視出来るというのも海外小説をOCRするときには結構大事だと思う。
751(1): 743 [sage] 2023/02/13(月)21:26 ID:0/m2nEld0(7/8)
>>750
DocuworksはOCR専門ソフトではないし、操作も簡単な割にはいい結果がでますよ。
今回NDLはデフォルト設定だと段組がメチャクチャでした。設定を変えたらOKでしたが、認識結果は今一つでした。
たしか、GoogleもPDFのレイアウト解析は今一つだったように覚えています。
753(1): 743 [sage] 2023/02/13(月)21:39 ID:0/m2nEld0(8/8)
体験版が2か月くらい使えたと思いますよ。
私のはサポートが切れた古いバージョンなので、最新版とは違うかも知れませんのでご注意下さい。
バージョンアップを改悪という人が多い印象なので、注意が必要ですよ。
上下前次1-新書関写板覧索設栞歴
スレ情報 赤レス抽出 画像レス抽出 歴の未読スレ AAサムネイル
ぬこの手 ぬこTOP 0.033s