【文字認識】OCRソフト(3文字目)【 自炊 】 (655レス)
【文字認識】OCRソフト(3文字目)【 自炊 】 http://egg.5ch.net/test/read.cgi/software/1711002779/
上
下
前
次
1-
新
通常表示
512バイト分割
レス栞
1: 名無しさん@お腹いっぱい。 [sage] 2024/03/21(木) 15:32:59.39 ID:L+i98pj10 光学文字認識(こうがくもじ にんしき、Optical character recognition)ソフト 主なOCRソフトウェア(市販ソフト) ・読取革命16(開発元パナソニック、販売元ソースネクスト) ・本格読取5(開発元パナソニック、販売元ソースネクスト) ・e.Typist v.15.0(メディアドライブ) ・ABBYY FineReader PDF 16(ABBYY) 主なOCRソフトウェア(フリーソフト) ・tesseract-ocr ・PaddleOCR ・RapidOCR ・NDLOCR ・MangaOCR ・bunkoOCR 過去スレ 【文字認識】OCRソフト【 自炊 】 https://egg.5ch.net/test/read.cgi/software/1470745451/l50 【文字認識】OCRソフト(2文字目)【 自炊 】 https://egg.5ch.net/test/read.cgi/software/1701326685/l50 http://egg.5ch.net/test/read.cgi/software/1711002779/1
636: 名無しさん@お腹いっぱい。 [sage] 2025/07/29(火) 20:20:13.41 ID:zpxe7x9j0 サンプルIMG_2399.pdfで「婆さん」を検索すると24行目末尾は検索されません リーダーが改行をまたいで検索するオプションを持っいてくれれば済む話だとと思うんですがね http://egg.5ch.net/test/read.cgi/software/1711002779/636
637: 名無しさん@お腹いっぱい。 [sage] 2025/07/29(火) 21:16:00.17 ID:Lj85Uz1y0 >>634 サンプルIMG_2399.pdf SmatraPDFで行末跨ぎ検索(「婆さん」など)やctrl+aで全選択してクリップボードコピーが出来ました ただし行が傾いているせいか、マウスでの文字選択がトリッキーです (選択してても所々カーソルの様な選択幅しか表示されない、実質無害ですが) PythonのMyMuPDF(SmatraPDFも同じmupdfエンジン)でもテキスト抽出できました http://egg.5ch.net/test/read.cgi/software/1711002779/637
638: 名無しさん@お腹いっぱい。 [sage] 2025/07/29(火) 21:38:58.51 ID:zpxe7x9j0 SmatraPDFは使ったことがありましたがそんな機能があったとは気付きませんでした 本家も見ならってほしい http://egg.5ch.net/test/read.cgi/software/1711002779/638
639: 名無しさん@お腹いっぱい。 [sage] 2025/07/30(水) 10:24:14.81 ID:kWSxFREE0 Acrobat Readerで行跨ぎ検索が効くのは検索語句が漢字語句かカタカナ語句に限られるような感じがする よって「婆さん」には効かない Windowsサーチ用のAcobat Reader付属のiFilterも同じである様子 http://egg.5ch.net/test/read.cgi/software/1711002779/639
640: 名無しさん@お腹いっぱい。 [] 2025/07/30(水) 17:33:30.37 ID:aKBiOqsf0 Mac版のAcrobat readerだと、「婆さん」で改行かかっててもヒットするな。バージョンによるのかしら 座標を絵に合わせてTmで配置し直してるけど、前の行の近傍にある場合だけ、後続のTjがくっつく動作になってるっぽい。 Macのプレビューだと、そういう行は切れちゃう。 http://egg.5ch.net/test/read.cgi/software/1711002779/640
641: 名無しさん@お腹いっぱい。 [sage] 2025/07/30(水) 17:41:22.40 ID:a4kXxPog0 自分はAcrobat ReaderをインストールしてないですがエクスプローラーからPDF検索出来てます (「婆さん」は何箇所もあるので別のものだと「そうした気候の恩恵」など) Windowsデフォルトのハンドラーが使われているようです (SumatraPDF IFilterもありますがインストールしてなかった) Computer\HKEY_CLASSES_ROOT\CLSID\{6C337B26-3E38-4F98-813B-FBA18BAB64F5} Reader Search Handler %systemroot%\system32\Windows.Data.Pdf.dll http://egg.5ch.net/test/read.cgi/software/1711002779/641
642: 名無しさん@お腹いっぱい。 [] 2025/07/30(水) 18:53:37.59 ID:q9Qt2B2X0 みなさん検証ありがとうです。 だいたい行けそうな気配がするので、この方針でpdf埋め込み行くことにします。 bunkoOCRに入れ込むので、もうちょっと待っててください。 http://egg.5ch.net/test/read.cgi/software/1711002779/642
643: 名無しさん@お腹いっぱい。 [sage] 2025/07/30(水) 18:59:27.02 ID:kWSxFREE0 自分のPCも調べたらWindows標準のPDF検索機能が使われていて「そうした気候の恩恵」もマッチしました Acrobat ReaderをインストールしていたのでてっきりそのiFilterだと思い込んでいました 何を見て「Windowsサーチ用のAcobat Reader付属のiFilterも同じである様子」なんていう嘘を書いてしまったんだろう すみませんでした Explorerの検索はよく使っているのでうれしい結果でした http://egg.5ch.net/test/read.cgi/software/1711002779/643
644: 名無しさん@お腹いっぱい。 [sage] 2025/07/30(水) 20:12:39.04 ID:bAZ+wc1s0 >>642 良かったです、よろしくお願いします >>643 すみません、少し複雑なので省略しました 実際にはここに書いてある順番で調べていく必要があります https://learn.microsoft.com/en-us/windows/win32/search/-search-ifilter-registering-filters https://learn.microsoft.com/ja-jp/windows/win32/search/-search-ifilter-registering-filters 自分の場合に使用されているifilterを示したかったのですが、>>641のレジストリーだけで決定されるわけではなく Computer\HKEY_LOCAL_MACHINE\SOFTWARE\Classes\.pdf\PersistentHandler (Defalut)={1AA9BF05-9A97-48c1-BA28-D9DCE795E93C} Computer\HKEY_CLASSES_ROOT\CLSID\{1AA9BF05-9A97-48c1-BA28-D9DCE795E93C}\PersistentAddinsRegistered\{89BCB740-6119-101A-BCB7-00DD010655AF} 下に>>641のCLSIDでの登録があるのでその部分だけ示しました iFilterの表示名だけであれば Win+Sサーチ -> Indexing Options -> Advancedボタン -> File Typesタブ -> リストのpdfまでスクロール で確認できると思います http://egg.5ch.net/test/read.cgi/software/1711002779/644
645: 名無しさん@お腹いっぱい。 [] 2025/07/31(木) 07:22:57.88 ID:fhhSIdzX0 スマホのアプリでいくつか試したけど上のサンプルのでもできたりできなかったりするのでアプリ側が行跨いで検索する機能があるかどうかがまずあって、 サンプルのだとできたアプリでも自前のpdfだとできる文章とできない文章があるからpdfでも対応してなきゃいけないみたいですね http://egg.5ch.net/test/read.cgi/software/1711002779/645
646: 名無しさん@お腹いっぱい。 [sage] 2025/07/31(木) 09:47:16.66 ID:CGA+N+8R0 AIに聞いてみたら行跨ぎ検索に対応しているリーダーはWinでは有償無償含めてSumatraしかないそうだ(AIは堂々と嘘書くから信用はしてないが) PDFでリフローのような構造が存在するのかどうかは存じませんがbunkoOCRテキスト出力にもリフローのオプションを用意していただけらうれしいです それくらい自分でスクリプトなりなんなり書けと言われてしまうかもしれませんが本体に機能があると便利ですので http://egg.5ch.net/test/read.cgi/software/1711002779/646
647: 名無しさん@お腹いっぱい。 [sage] 2025/07/31(木) 11:31:09.20 ID:6fw8HGOu0 ググったらAI Overviewと言うのが表示されて、リフローPDFなるものは無いそうです While PDF itself is not inherently reflowable, the Reflow feature in PDF viewers allows text to adjust to different screen sizes, making it easier to read on various devices. This feature is available in applications like Adobe Acrobat and similar PDF readers. Here's a more detailed explanation: PDFs are typically designed with a static layout: This means the text and images are placed in a fixed position on the page, similar to a printed document. Reflow mode rearranges the content: When you enable reflow in a PDF reader, the text is reorganized into a single column that adapts to the screen width, eliminating the need for horizontal scrolling when zooming in or reading on smaller screens. Not all PDFs are created equally: While reflow can improve readability for many PDFs, it doesn't always perfectly follow the reading order, especially if the PDF wasn't created with accessibility in mind, according to Fondazione LIA. Reflow is a viewing feature, not a file format change: It's a display setting within the PDF reader, not a permanent change to the PDF file itself. Converting to EPUB is another option: For more significant control over text size and layout, you can convert a PDF to the EPUB format, which is inherently reflowable. In summary: PDF reflow is a helpful feature in PDF readers that dynamically adjusts text for better readability on different screens, but it's not a fundamental characteristic of the PDF file format itself. http://egg.5ch.net/test/read.cgi/software/1711002779/647
648: 名無しさん@お腹いっぱい。 [sage] 2025/08/01(金) 18:30:40.03 ID:2SdW+XUv0 論文雑誌の画像スキャンOCR例がありましたので何かの参考までに https://www.jstage.jst.go.jp/article/jjsai/27/1/27_67/_article/-char/ja SumatraPDFですが 段組み内の改行跨ぎ検索は大丈夫、例「新聞やテレビ」 段組み跨ぎやページ跨ぎはダメでした、例「リアルタイム」 OCR処理ではなく画像処理の問題ですが、スキャン画像の傾きが補正されていて 画像は白黒ディザリングでサイズダウンしている様です http://egg.5ch.net/test/read.cgi/software/1711002779/648
649: 名無しさん@お腹いっぱい。 [] 2025/08/02(土) 06:49:17.77 ID:9+Bx6sl60 官報でやってみた 埋め込みPDF https://github.com/lithium0003/pdf_addtext/raw/main/Sample/20250718g00165full00010088.processed.pdf オリジナル https://github.com/lithium0003/pdf_addtext/raw/main/Sample/20250718g00165full00010088.pdf 13ページくらいから、条約の原文が画像で貼ってあるのをテキスト検索できるようになった、と思う。 あとは、どういう感じで画像を抽出しつつOCRして戻すのをやるかを考え中。 自分で遊びたい人は、ソースはこれ https://github.com/lithium0003/pdf_addtext C++でコンパイルする必要があるけど http://egg.5ch.net/test/read.cgi/software/1711002779/649
650: 名無しさん@お腹いっぱい。 [sage] 2025/08/02(土) 16:51:20.82 ID:H4rP2k+Q0 官報のレイアウト難易度凄いですね(縦書き横書き、回転文書画像など) しかも縦書きTrue PDF部分ではクリップボードコピーしたら一文字毎に改行されてました (改行を取った状態『「第六十条第三項第一号」に改め、「規定による」を削り』などで検索は出来ますが) これはもう対応しなくて良いと思いますが、OCR部分で気が付いたのがP25の点線囲いの部分が誤認識してる様です 4 第一項及び第二項の規定による立入検査の権限は、犯 罪捜一査のためにーー認ーめーーられーーたーものーーとー解釈してーーーーーーーーはーならない。ーーーー 第百六条次の各号ーのいずれかに該当するときーはー、そ」の違 反行為をした者は、三十万円以下の罰金に処する。 一〜七(略) 八 第七十二条の二第一項又は第二項の規定に違反し て、報告をせず、若しくは虚偽の報告をし、又はこれ らの規定による検査を拒み、若しくは妨げたとき。 ー ーー http://egg.5ch.net/test/read.cgi/software/1711002779/650
651: 名無しさん@お腹いっぱい。 [] 2025/08/02(土) 17:11:04.77 ID:9+Bx6sl60 >>650 そこの点線は誤認識してますね。 一応点線っぽいところは自動で外すロジックになってるのですが、文字に近接しすぎているので場所的に ふりがな扱いの伸ばし棒と誤認されて拾ってしまってますね。 これはもう無理ゲー 前処理で、罫線を見つける処理を走らせてマスクする必要がありそう。 http://egg.5ch.net/test/read.cgi/software/1711002779/651
652: 650 [sage] 2025/08/02(土) 18:46:20.53 ID:vzahj3Pe0 >>651 ですよね、どんなシステムで文書作成してるのか逆に気になります >>650の「一文字毎に改行され」がSumatraPDFのせいなのかと思い、 観念してAdobe Acrobat Reader DCをインストールした所、その通りでした(64bit version 25.001.20577) 官報のTruePDF縦書きクリップボードコピーも「一文字毎に改行」はされなくて連続してコピーされ さらにIMG_2399.pdfの「婆さん」の行跨ぎ検索も出来てます 縦書き文字列のマウス選択操作もSumatraよりも断然正確でした (行が傾いていてもその傾き通りに選択状態になる) http://egg.5ch.net/test/read.cgi/software/1711002779/652
653: 名無しさん@お腹いっぱい。 [sage] 2025/08/03(日) 12:00:05.05 ID:pu/nbpro0 ScanSnap用のScanSnap OrganizerやScanSnap HomeのOCRエンジンはABBYY製だと言われているので、 製品版ABBYY 15を高い金を出して買ってみたのだが、OCR精度(縦書き日本語)はScanSnap用よりも悪いし、 画像を変えずにPDFにOCR埋め込みはできないし、他のソフトでPDFに埋め込んだOCR透明テキストは編集できないし、 OCR後のリフローテキスト出力は段落認識の精度が悪いし、といった具合で、金をドブに捨てた感じ http://egg.5ch.net/test/read.cgi/software/1711002779/653
654: 名無しさん@お腹いっぱい。 [sage] 2025/08/04(月) 08:03:12.76 ID:WQjkdvzc0 PCをリカバリーしたら自分がScanSnapを買った時付いていたPower PDF Standardの認証ができなくなっていた ベンダーが変わったからそんなこともあろうかと事前に調べてテストしておいたのだがライセンスは HKEY_LOCAL_MACHINE\SOFTWARE\WOW6432Node\Licenses に保存されているのでそれをregファイルにエクスポートしておいてインストール後実行前に開けばよろし それにしても無責任なことだな Power PDF StandardはScanSnap Orgaizer/HomeよりもOCRの精度が高い(日本語縦書) 欠点は既にOCR透明テキストが存在していても消してくれずOCRが二重になってしまうこと http://egg.5ch.net/test/read.cgi/software/1711002779/654
655: 名無しさん@お腹いっぱい。 [sage] 2025/08/04(月) 08:30:40.14 ID:WQjkdvzc0 その後気付いたのだがこういうページがあった https://faq.pfu.jp/faq/show/4835 でもregファイルで保存しておく方が認証を気にせずに済み、何台でもインストールできて(そんなことはしないけど)いいと思う http://egg.5ch.net/test/read.cgi/software/1711002779/655
メモ帳
(0/65535文字)
上
下
前
次
1-
新
書
関
写
板
覧
索
設
栞
歴
スレ情報
赤レス抽出
画像レス抽出
歴の未読スレ
AAサムネイル
Google検索
Wikipedia
ぬこの手
ぬこTOP
0.017s