【文字認識】OCRソフト【自炊】 [無断転載禁止]©2ch.net

[過去ﾛｸﾞ] 【文字認識】OCRソフト【自炊】 [無断転載禁止]©2ch.net (882ﾚｽ)
上下前次1-新
抽出解除必死ﾁｪｯｶｰ(本家) (べ) 自ID ﾚｽ栞あぼーん

このｽﾚｯﾄﾞは過去ﾛｸﾞ倉庫に格納されています｡
次ｽﾚ検索歴削→次ｽﾚ栞削→次ｽﾚ過去ﾛｸﾞﾒﾆｭｰ

743(7): 名無しさん＠お腹いっぱい。 [sage] 2023/02/13(月)18:28 ID:0/m2nEld0(1/8)
NDL試した。意外なことにDocuworksより少し良いくらいだった。
ポンコツのeTypistと同じエンジンだから、ゼロックスは最適化が上手ということなのかなあ？

744(1): 743 [sage] 2023/02/13(月)18:31 ID:0/m2nEld0(2/8)
追記
いまみたら、ページ番号にOCR処理をしていない。
これがデフォルトなら画像のトリミング処理を省略できますねえ。
ルビを処理しないという選択できるから、文庫のOCRがはかどるねえ。

746(1): 743 [sage] 2023/02/13(月)19:16 ID:0/m2nEld0(3/8)
>>745
一手間省けるだけでも相当楽になると思います｡

いま別の画像にOCRかけたら､NDLの完敗だった｡
Docuworksは意外に性能が良くて驚いた｡

NDLが優れている方が嬉しいので複雑だなあ｡
この画像をGoogel Documentで開いてみます｡

747: 743 [sage] 2023/02/13(月)19:21 ID:0/m2nEld0(4/8)
Google Drive上のpdfをGoogle Documentから開いた｡
今回もDocuworksの勝ち｡
docuworksは7.3でサポートが終わった古いバージョン｡
新しいバージョンだともっと優秀なのかなあ？

驚きの大がっかりな結果でした｡
Docuworksより誤認識が少ないことを期待したのに､期待外れもいいところでした｡

748: 743 [sage] 2023/02/13(月)19:26 ID:0/m2nEld0(5/8)
冷静に考えれば､たった2枚の画像の比較だったので､一般化はしてはいけないと思う｡
文庫本はNDLの勝ち｡しかし2カ所！マークを1と誤認識しなかっただけの優位性だから大差ない｡
イラスト入りで変則的な段組の専門書はDocuworksの圧勝だった｡

文庫ならNDLの方がトリム不要で認識率が少し良い｡音声化するときはこの少しの差が大きな作業量の差になるから使う価値はあると思う｡

749: 743 [sage] 2023/02/13(月)19:33 ID:0/m2nEld0(6/8)
ルビを無視出来るというのも海外小説をOCRするときには結構大事だと思う｡

751(1): 743 [sage] 2023/02/13(月)21:26 ID:0/m2nEld0(7/8)
>>750
DocuworksはOCR専門ソフトではないし､操作も簡単な割にはいい結果がでますよ｡
今回NDLはデフォルト設定だと段組がメチャクチャでした｡設定を変えたらOKでしたが､認識結果は今一つでした｡
たしか､GoogleもPDFのレイアウト解析は今一つだったように覚えています｡

753(1): 743 [sage] 2023/02/13(月)21:39 ID:0/m2nEld0(8/8)
体験版が2か月くらい使えたと思いますよ｡

私のはサポートが切れた古いバージョンなので､最新版とは違うかも知れませんのでご注意下さい｡
バージョンアップを改悪という人が多い印象なので､注意が必要ですよ｡

上下前次1-新書関写板覧索設栞歴

ｽﾚ情報赤ﾚｽ抽出画像ﾚｽ抽出歴の未読ｽﾚ AAｻﾑﾈｲﾙ

ぬこの手ぬこTOP 0.033s