【文字認識】OCRソフト（3文字目）【自炊】

【文字認識】OCRソフト（3文字目）【自炊】 (655ﾚｽ)
上下前次 1-新

1(2): 2024/03/21(木)15:32 ID:L+i98pj10(1) AAS
光学文字認識（こうがくもじにんしき、Optical character recognition）ソフト

主なOCRソフトウェア（市販ソフト）
・読取革命16（開発元パナソニック、販売元ソースネクスト）
・本格読取5（開発元パナソニック、販売元ソースネクスト）
・e.Typist v.15.0（メディアドライブ）
・ABBYY FineReader PDF 16（ABBYY）

主なOCRソフトウェア（フリーソフト）
・tesseract-ocr
・PaddleOCR
・RapidOCR
省8

529: 03/13(木)19:22 ID:pvNGOBQk0(2/2) AAS
detectGPUを差し替えしなくてもDirectMLでidを0に指定したら確かにIntel Iris Xeが使用されました

530(1): 03/13(木)23:28 ID:H24E0L8b0(2/2) AAS
>>524
bunkoOCR_20250314_patch.zip
多分リストに残る原因が分かった気がするので、修正しました。
いわゆるスレッド競合というやつをやらかしたっぽいです。

531(1): 03/14(金)16:14 ID:8upJ8geF0(1/2) AAS
11世代のcore i7を使っていますが、あるサンプルで処理時間を比較してみました
CPU 55秒
DirectML 55秒 (内蔵GPUが使用される)
Open VINO 43秒 (内蔵GPUは使用されない)

CPUとDirectMLが同じというのは意外でした

532: 03/14(金)17:37 ID:L4e/Ml6f0(1) AAS
>>530
更新ありがとうございます
処理できなかったファイルは2バイト文字を含むフォルダの7階層ぐらい下にあるファイル
だったのでそれが原因かと思ってました
10数冊OCRしていますが処理できないファイルが数個残ったのはその一冊だけでした

小さいひらがなは設定を変えてもあまり上手くいかないのですが
普通に理解は出来るのでそのままにするか
気になる場合は「《」をエディタで検索して手作業で直すか
それとも一括処理できる方法があるか考えてます

あと今回は嬉しい改善点があって、正式な名称がわからないのですが強調に使う傍点？
省12

533: 03/14(金)18:50 ID:c/t5Sn160(1/3) AAS
CPUの演算は int8に量子化してるので、ちょっと精度落ちる分だけ速いはず。
DirectMLはfloat16じゃなくてfloat32になってるっぽいからちょっと速度損してる
と思われる

534(1): 03/14(金)19:22 ID:c/t5Sn160(2/3) AAS
>>531
float16で計算するようにしてみたのですが、これでDirectMLの速度と精度は変わりますか？
bunkoOCR_20250314b_patch.zip

535(1): 03/14(金)21:41 ID:8upJ8geF0(2/2) AAS
>>534
早速のご対応ありがとうございます
同じサンプルで55秒が45秒まで短縮されました（プログラム起動後それぞれ2回目の処理時間を目視で測りました）

サンプルが文庫本のスキャンではなくて対象外かもしれませんがOCR後のレイアウトは崩れています。パッチ前後での相違はテキストファイルの31行目の「[6]」が「助」から「囮」に変わったことだけです

ファイルをアップしました
外部ﾘﾝｸ:2.gigafile.nu

536: 03/14(金)22:24 ID:c/t5Sn160(3/3) AAS
>>535
サンプルありがとうございます。

フォーマットが崩れるのは、竹と藁のとこらへんが一文字なので、ここだけ縦書きじゃないかと
誤認してる感じですね。
Mac版で同じロジックで図示するとこんな感じ
画像ﾘﾝｸ[png]:i.imgur.com
区切り部分が連続してるから、隣の段落だと誤解してるので本文と泣き別れてしまっています。

この辺は、ロジックでがんばっているところなので、段組を処理するのと別々にして
上から(右から)順に処理するモードも必要そうですね。

[6]は、括弧が近接しすぎているので認識が難しいみたいです。
省2

537(1): 03/15(土)10:52 ID:WTpLRrTY0(1) AAS
bunkoOCRの作者様へ質問ですが
外部ﾘﾝｸ:imgur.com
のように前後が空行の見出し行というのはよくありますがどうして字下げにならないのでしょうか
何か設定がありますか

538: 03/15(土)11:22 ID:C1ATbMq80(1/4) AAS
>>537
字下げの判定のロジックが、そのブロックの他の行よりも下がってるかどうか、に今なってるので、単独行が下にあっても字下げにならないです。
対策するには、ブロック全体がほかのブロックよりも下にある、というのは検出できそうなので、その場合は字下げを追加する、とかがいいかもしれません。
もうちょいこの辺のロジックは良い感じにいじってみます。

539(2): 03/15(土)20:07 ID:wtA0GHpr0(1/2) AAS
ルビの文字が少しおかしくなってるのがあったわ

「ちゆう」が「ちゆう」、「しよう」が「しうよ」　になってたり

本文は大丈夫みたい

540: 03/15(土)20:08 ID:wtA0GHpr0(2/2) AAS
間違えた、

「ちゆう」が「ちうゆ」

みたいに入れ替わってるみたい

541(1): 03/15(土)21:28 ID:HR9ch8n80(1) AAS
ルビを無視する設定にできるように上か下にあるページ番号や章の名前などを無視する項目は追加可能ですかね？
一括でトリミングすると削りすぎて本文まで消えたり、逆に消しきれなかったりするのであると便利だと思います

542: 03/15(土)22:07 ID:C1ATbMq80(2/4) AAS
>>539
もし可能なら、ふりがながおかしくなる該当画像を提供していただけますか。
こちらで、どこにバグがあるか確認しやすくなるので。
手元でもいろいろ不具合はあるので直してますが、入れ替わってるのは別の原因がありそうな気がします。
メールでよければcontact@lithium03.info

543: 03/15(土)22:09 ID:C1ATbMq80(3/4) AAS
>>541
私も困ってるので、いま効率的にヒットできる方法を考えています。
いいアイデアが出るかフォーマット解析モデルが上手くいくまで、しばしお待ちください

544: 03/15(土)23:21 ID:C1ATbMq80(4/4) AAS
bunkoOCRで上手く処理できない画像があった場合、作者に匿名で届けれるように
外部ﾘﾝｸ:lithium03.info
作りました。コメント欄にどの辺りがおかしいか書いてもらえると助かります。

545: 03/16(日)10:51 ID:MAo5rcrf0(1/2) AAS
532さんが電子書籍化のことを書かれていたが自分もそのことを考えていた
完璧な物ができなくてもいいけどリフロー化できれば便利になる
段落が空白で始まり会話文の行頭が「であるような小説は機械的に処理するロジックはできそうだが、そうでない本もあるので汎用的に作るのは難しそうだ
新書的な本で本文だけでよければ図表は事前にグラフィックソフトで消しておくしかないかな

546: 03/16(日)11:36 ID:KPuRHLPa0(1) AAS
縦書きで、上や下にページ番号と章タイトル書いてあるパターンと、横書きで右や左にあるパターンは
多分簡単に外せそうな感じ
横書きで上下にあるパターンはどうしよう。文字の大きさで何とかしようかしら。

図や表は、真面目に解析しないとダメなので、もうちょい時間かかるです。
NDLの認識エンジン使ってみようかしら。

547: 03/16(日)11:54 ID:MAo5rcrf0(2/2) AAS
図表についても考えていただけているとはうれしいです

548: 03/17(月)15:39 ID:U1+W+Yaq0(1) AAS
>>539
ルビが順序入れ替わるバグ、確認しました。どこが原因か探してみます。

549(1): 03/18(火)14:46 ID:C3wFnwK40(1) AAS
bunkoOCRの作者様、
１画像の最終行には論理的には改行を付けるべきではないでしょうか
複数画像のテキストを結合するにも手間がかかりませんし

ちなみに市販品「読取革命」でも最終行には改行が付いています

550: 03/18(火)19:38 ID:S/mZBAgF0(1) AAS
>>549
修正してて抜けてることに気付きました。
空改行を含めて改行を入れるように仕様を変更します。
ページ結合する際にやりやすいよう、2行または1行の空改行が入るようにして
2行の連続空改行を置換すると文が連続するようにしようと考えています。

551: 03/19(水)10:38 ID:jWeWGRgn0(1/4) AAS
読取革命は文章だけの本で勝手なレイアウト認識をされるのが邪魔だ
ページ等を事前に削除した画像で１ページ全体を１つの領域にするにはページを選択して右クリックの「すべて選択」→「属性変更」でできることがわかったが
それを全画像でまとめてやることができないようだ
何かいい方法ある？

552: 03/19(水)11:15 ID:OSii6Jk50(1/2) AAS
枠固定みたいなのあったような

553: 03/19(水)11:19 ID:OSii6Jk50(2/2) AAS
かえって扱いづらくなるかも

554: 03/19(水)17:28 ID:jWeWGRgn0(2/4) AAS
UWSCでマウスを操作するスクリプトを作って「ページ一覧」ウィンドウの「次ページ」ボタンと画像ウィンドウとを行き来させることで
読取革命で自動的に全画像をそれぞれ単一領域に設定できるとわかった

555: 03/19(水)20:45 ID:jWeWGRgn0(3/4) AAS
どうしてそんなことにこだわっているかと言うとテキストファイルに変換するのに読取革命を自動レイアウト認識で使うと
空行が無視されてしまうためです
出来が悪いとしか言いようがない

例
外部ﾘﾝｸ:1.gigafile.nu

556(1): 03/19(水)21:05 ID:jWeWGRgn0(4/4) AAS
bunkoOCR作者様、
上にアップした例を変換するとbunkoOCRは文字も正確に認識されていていいのですが、
最後の行頭の「　一一月」が「一月」になってしまうのはどうしてでしょうか

557(1): 03/19(水)21:16 ID:5W0SNsbt0(1) AAS
読取革命、テンプレート作って、かんたん認識で設定したらできるかな

558: 03/20(木)02:36 ID:jueOGt7Y0(1) AAS
>>556
なんかバグ踏んでました。手元で修正している最新版ではちゃんと「一一月」に取れてるので、
処理の繋ぎ目で文字が行方不明になるバグだったっぽいです。

559: 03/20(木)10:01 ID:vGimLzjT0(1) AAS
>>557
画像が同じような大きさならば一気にできますね
アドバイスありがとうございました

560(1): 03/30(日)14:19 ID:OMKQug+O0(1) AAS
bunkoOCR、前後の文字が消えて同じ文字になるのがあったわ
「顔顔」「目目」「がが」「でで」みたいに

漢字なら正規表現([一-龯])\1で探せるけど
ひらがな([ぁ-ん])\1はマッチするのが多いから見つけるのが大変

561: 03/30(日)18:57 ID:/ik3ZoFT0(1) AAS
>>560
ごめん今直してるところです。もうしばしお待ちを

562(1): 03/31(月)17:02 ID:NQoUZ0wV0(1/2) AAS
bunkoocr作者様、お世話になっております
おま環の可能性も高いのですが、bunkoOCR_20250314_patch、bunkoOCR_20250314b_patchの2つのバージョンから
使っているうちにだんだん速度が遅くなってくる現象が見られます（それでも数年前のよりは早いですが）
同じファイルでもbunkoOCR_20250311の方が倍以上の速度で処理できます

例 bunkoOCR_20250311　337ページで10分
bunkoOCR_20250314b_patch　337ページで22分

20250311版はGPU使用率がほぼ9割以上で推移するのに対して
外部ﾘﾝｸ:imgur.com
20250314以降は開始直後は上記と同じで高速で処理してくれるのですが2分ほど経つと使用率にたまに0〜10％が出始め、
外部ﾘﾝｸ:imgur.com
省3

563: 03/31(月)17:03 ID:NQoUZ0wV0(2/2) AAS
負荷が軽いのはいいことなのですが同時に処理速度もかなり遅くなるので
今は20250311版にTextDetector.fp16.onnxを入れて処理しています
（これは入れたほうが速度が速くなりました）
ただ、もしかしてradeonのドライバの問題かもしれないです
一応、最新の25.3.1にしたうえでradeon chillなどの省電力機能が干渉してるかもと思い全部オフにして
GPUもデフォルトからOCしてみたりもしたのですが症状は変わらず
温度に関してはソフト実行中でも50度以下で制限がかかるほど熱くはなっていません

環境は以下です

Win10 22H2
Ryzen 5 2600X
省4

564: 03/31(月)18:48 ID:3C9nSBip0(1) AAS
処理してるうちに遅くなるのは、開発環境でもそう言われてみると起きてたような気がします。
あまり長時間のテストをWindowsでしてなかったので気付いていませんでした。
今iOS版でロジックの修正を行っているのがもうちょいで終わるので、Windows版に反映するときに
一緒にみてみます。

565: 03/31(月)21:41 ID:qycdQAum0(1) AAS
パッチを当てた後、似たように処理が遅くなるのはあったな
キャッシュを削除して新しくキャッシュを生成したら直ったけど

566(1): 04/04(金)05:22 ID:UwX3QHjb0(1/2) AAS
>>562
すみません。単純なポカしてました
ログを表示していますが、そこの領域の行数に比例して遅くなっているみたいです
計算自体は遅くなっていないのですが、表示が詰まって最終的には計算まで巻き込まれて
遅くなっていそうです
どっちみちこの部分は進行具合を表示するためのものなので、過去30行くらい残して昔のを
消していくように修正します

その他、iOS版3.2で修正したOCRの処理上のエラーも一緒に直していますので次のバージョンを
お待ちください

567: 04/04(金)06:18 ID:sYdJwQEc0(1) AAS
>>566
対応ありがとうございます
楽しみに待ってます

568(1): 04/04(金)21:21 ID:xONGlnES0(1/2) AAS
bunkoOCR抜群です｡旧字体もへっちゃらです｡凄い｡
困ってるのは頁が､左欄､右欄が分かれて､コンサイス英和の様な体裁の時､
左欄一行､右欄一行､左欄二行､右欄二行､〃〃になってしまう｡

左欄全部､次に､右欄全部に指定する方法とかありますか｡

569: 04/04(金)21:55 ID:UwX3QHjb0(2/2) AAS
>>568
見開き+段組と、単ページ+段組で順序が違うので、オプションを導入する予定です。
このオプション入れたら、真ん中らへんに境目があればたぶんいけると思います。

570: 04/04(金)22:02 ID:++fNMCDT0(1/2) AAS
縦書き本画像を左９０°回転させて横倒れ文字のまま横書き専用OCRソフトが対応してくれればいいのに

571: 04/04(金)22:05 ID:++fNMCDT0(2/2) AAS
そうしたらみんな左上から右に向かって解析できる

572(2): 04/04(金)23:10 ID:xONGlnES0(2/2) AAS
568 です｡
レスポンス､ありがとうございます｡気長に待ってます｡

現版5.7G!!でかい｡ 1Mbit/secでダウンロード14時間余かかりました｡
256Gメモリー･ステックにセーブ試みるとエラー「大きすぎ､保存不可」
ベクター･フリー･ソフトの[ファイル分割 FDHoot]で分割して保存しました｡

色んな方々のお世話になってます｡

573: 04/05(土)07:59 ID:5gmEcGA80(1) AAS
あんまりにアーカイブサイズがでかいので、自分の要らないプラグインに必要なdllを外してダウンロードできる
ダウンローダ作るわ。DirectMLの人やCPUの人はcuda要らないものね

574: 04/10(木)05:03 ID:DVbx1C1T0(1) AAS
bunkoOCRすごいね
久々に感動した

575(1): 04/10(木)09:02 ID:AvcOBBMH0(1) AAS
bunkoOCRは色々改良していただいているようだが更新公開頻度を上げていただけるといいんだが・・・

576: 04/10(木)10:20 ID:T2B8zrS10(1) AAS
>>575
すまんの。自分で使ったり報告があったバグを潰してたら、バグのモグラ叩きになってて時間かかってたです。
iOSの方で直したやつを、Windowsの方に持ってきてる形なので、遅くなってます

577: 04/10(木)14:20 ID:P8TyB0Jh0(1) AAS
主流のcuda以外も見捨てずに対応してくれるだけで大感謝です
2年前のに比べて認識精度がかなり上がっているので昔OCRしたものも再度やり直してます

578: 04/12(土)15:53 ID:BULBwN9g0(1) AAS
透明テキストPDF化をなにとぞお願いいたします

579: 04/13(日)08:24 ID:xMwpL3+B0(1) AAS
全ファイルのOCRが完了した時に何らかの音が鳴ると嬉しいですね
以前と違ってかなり早く終わるので気づかないことも多い

580(1): 04/14(月)02:02 ID:ENlBum6U0(1/2) AAS
GUIだけでなくCUIでも動作できるようにしていただけると超うれしいですが、優先度は低めでも

581(1): 04/14(月)04:07 ID:V0n1487Y0(1) AAS
>>580
基本的には、OCRengine.exeでほとんど処理してるので、標準入力に順番に対象ファイルを入れて行けば処理される感じです。
次のやつにコマンドラインから呼ぶ時の方法も書いておきますね。

582: 04/14(月)10:42 ID:ENlBum6U0(2/2) AAS
>>581
ありがとうございます！気長にお待ちしております

583: 04/14(月)20:27 ID:vcf9bSuT0(1) AAS
連続した会話文で2つ目以降の「（カギカッコ）が抜ける例ですが
bunkoocrの最新のバージョンですと、ある程度の高解像度の画像ファイルならほぼ無くなりましたが
古いスキャナやデジカメで撮影したような低解像度のファイルだとたまに出てきますね
文意はわかるのであまり気にはなりませんが

584: 04/15(火)02:55 ID:QrYL8PWV0(1) AAS
ゴミを除去するための空白閾値が高すぎると、細い文字や薄い文字が巻き込まれて除去されるので、0に近づけるとよいかも
blank_cutoffというやつ。20だと薄めの字は飛ぶと思うです

585: 代行 04/15(火)06:33 ID:LOCXpazd0(1) AAS
>>1にあるフリーのOCRの中ではフロントエンドがないNDLOCRが一番敷居高い気がする

586: 04/15(火)11:03 ID:j4ru0Sre0(1) AAS
【脳科学】「政治行動の激しさ」に関連する脳回路の存在が研究で判明 [すらいむ★]
2chｽﾚ:scienceplus

上記のリンクをたどったリンク先の本文とコメントを読まれると・・・
余裕ありますか・・・
大々的にインターネット上にばらまかれました！

587: 04/15(火)19:23 ID:7bXQIrnr0(1) AAS
bunkoOCRさん、小説の節っていうのか知らないけど
1、2、3ってのが中盤にあっても文章の頭に表示されるのを修正してほしい

　　　　　1

みたいになってるやつ
空白が多いと難しいのかな

588: 04/16(水)05:43 ID:Xe/B+xr80(1) AAS
本性露骨に露したな

589: 04/16(水)20:08 ID:nf8WVJSp0(1) AAS
>>572
分割するよりNTFSでフォーマットしたほうが早いと思う。

590: 04/16(水)22:50 ID:Eccel3Mp0(1) AAS
>>572 です
新品のスティックならNTFSでフォーマットもありえます｡
今回は､新品のスティックではなく､既に幾つかのファイルが保存されてる使いふるし品への追加です｡

ベクター･フリー･ソフトの[ファイル分割 FDHoot]は手っ取り早く分割できました｡
よくできてます｡

591(1): 04/17(木)16:38 ID:qQw+9RmR0(1/3) AAS
bunkoOCRで「こ」が「と」に認識されるのがあった
出版社によって使ってるフォントが違うせいだと思うけど
「こ」の間が「乙」みたいにつながってる文字が誤認識するみたい

592(1): 04/17(木)17:38 ID:IXNKC84m0(1) AAS
>>591
どこの出版社のやつとかわかりますか。次の再学習の時に入れたいので、サンプルになる本を教えていただけるとありがたいです

593(1): 04/17(木)18:39 ID:qQw+9RmR0(2/3) AAS
>>592
新潮文庫で辻村深月「ツナグ」という本です

「こ」の部分
画像ﾘﾝｸ[jpg]:i.imgur.com

594: 04/17(木)19:29 ID:5r9yYGXf0(1/5) AAS
>>593
ありがとうございます。新潮文庫は、手持ちにあるので同様の文字が無いか確認してみます。

595(1): 04/17(木)19:35 ID:5r9yYGXf0(2/5) AAS
あ、これ
内容からすると特別にフォント変えてあるのかな。実物見てみます。

596: 04/17(木)19:55 ID:Fet/c6EA0(1) AAS
人間さんも読み間違いしそうで...
aとoを読み間違える某教科書体にはムカついている。

597(1): 04/17(木)20:14 ID:qQw+9RmR0(3/3) AAS
>>595
画像は「こ」が入ってるところを幾つか抽出して貼っただけです
小説全体でこんな感じのフォント使ってますね
探したところ講談社でも似たようなフォントで見つかりました

598(1): 04/17(木)20:28 ID:l3abfBfd0(1/2) AAS
bunkoocr様、目次や登場人物紹介のレイアウトが崩れるのはどうしようもないことなんでしょうか？

目次だと漢数字のページ数（一ニ三など）が全部まとめて文章後方に行って
見出し部分は前に固まる感じ

登場人物も、　人名A---------その説明文、のようなものですと中盤から崩れ始めます
数ページなので手動で直してもあまり手間はかかりませんが

599: 04/17(木)20:43 ID:l3abfBfd0(2/2) AAS
と、書き込んだら何やら興味深い話

新潮文庫は自分も10冊近くやりましたが画像とは違う繋がっていないフォントでしたね
文春・講談社・集英社・小学館・角川・朝日ソノラマなど150冊以上ocrしましたが
そのような事例はなかったと思います
ジャンルや発行年代が違うのかな？

600: 04/17(木)21:12 ID:GmXyYCXS0(1) AAS
作家によってはこだわりでフォントを指定してくることがある…みたいな話をなんかでみたことがある
出版関係者じゃないのでホントかどうかはしらんけど

601: 04/17(木)21:35 ID:5r9yYGXf0(3/5) AAS
>>598
iOS版では多分直ったと思うので、windows版に反映させているところです。
文のブロックの形成方法を少し修正しました。

602(1): 04/17(木)21:46 ID:df3Tx6mU0(1) AAS
bunkoOCRを使わせてもらいましたがすごく良かったです。
だた「廣」が「広」になってしまうのが気になりました。
ある意味正しいのでしょうけど人名だったので手打ちで修正しました・・・

603: 04/17(木)22:28 ID:5r9yYGXf0(4/5) AAS
「こ」も必ずしも失敗しないのがまた悩ましい
画像ﾘﾝｸ[png]:i.imgur.com

>>602
旧字のあたりは、勝手に変換してしまう時があるんですよね。見つけ次第直してたんですが、
廣と広は学習が足りてなかったみたいです。
どこの学習データにそのへんの変換が入ってしまっているのかが実はよく分かってなくて。
文字コードと字体の変換テーブルが、新しい字の方になってしまっているフォントが
使っている中にあるのかな。

604: 04/17(木)23:06 ID:5r9yYGXf0(5/5) AAS
>>597
ありがとうございます。貼っていただいた画像で試したところ、なぜか95%のサイズに縮小すると
ちゃんと認識しました。
一応リサイズオプションつけたような気がするので、もしよければ試していただけますか。
今のモデルは、大きい字になった場合繋がっていると間違えるやすいようなので、追加学習でまた直しておきます。

605(1): 代行 04/19(土)07:38 ID:XB6Cyug10(1) AAS
bunkoOCRの作者に聞きたいことがある

・Android版を作る予定はある？
・（NDL古典籍OCR-Liteみたいに）精度が多少落ちてもいいので、CPUのみで高速処理できるバージョンは作れる？

606: 04/19(土)10:56 ID:ITaD2JJG0(1) AAS
Android版なんていらんだろ

607(1): 04/19(土)11:41 ID:iEMWshJg0(1) AAS
>>605
Androidだと、性能の保証ができないので難しそうだなと。
なお、Androidのスマホをプレゼントしてくれるなら別ですけど、使ってないデバイスで開発するのは難しいです。
精度があんまり落ちないCPUバージョンは一応できましたが、これ以上速くするにはモデルサイズを
刈り込まないといけないのでちょと面倒。蒸留とかすればいいんでしょうけど、そんなにすぐにはできないです。

608: 04/19(土)16:29 ID:rFpYTTcg0(1) AAS
bunkoocrで出力されたjsonファイルを皆さんはどうやって活用してるんですか？
そのままじゃ読みにくいですよね
epubやら変換するツールみたいなのがあるんですか？

609: 代行 04/22(火)07:32 ID:L2Zcjzd/0(1) AAS
>>607
>蒸留とかすればいいんでしょうけど、そんなにすぐにはできないです。
わかりました、無理に急がなくても大丈夫です

610: 05/28(水)15:57 ID:8Uj7rV060(1) AAS
しかしソフ板でなんでエロ広告？

611(1): 06/18(水)15:54 ID:qU06wBhm0(1/2) AAS
bunkoOCR作者様、とても重宝させてもらってます
ありがとうございます

ところで横書き縦書きを指定することはできないでしょうか
横書きの文書で各ページ中の4行ぐらいが縦書きに判定されてしまいます

612(1): 06/18(水)18:23 ID:Md5cQHFm0(1) AAS
>>611
windows版の方でしょうか。
オプション入れ忘れてる気がしますので、次のバージョンで足しておきますね

613: 06/18(水)20:05 ID:qU06wBhm0(2/2) AAS
>>612
Windows版です
よろしくお願いします！

614: 06/19(木)13:48 ID:EanrVXIz0(1) AAS
次のバージョンはまだ時間がかかりそうですかね？
楽しみに待っています

615(1): 06/19(木)19:05 ID:VZAv1k7a0(1) AAS
ついでにTransformerの部分の再学習をさせてるので、もうちょいかかりそうです。
もう少しのところで微妙に精度が上がらないので苦しんでいるところです。

616: 06/20(金)20:22 ID:WjXrk/tl0(1) AAS
>>615
ありがとうございます
作者様のおかげで私の自炊ライフはかなり捗っています
もう数百冊自炊して一人でスマホの本棚画面を見てニヤニヤしてる感じです

617(2): 06/23(月)18:47 ID:LFHGqfnT0(1) AAS
ocrbunkoで、これみたいに括弧内が2行になってるの読み取り方法ありますか？
画像ﾘﾝｸ[jpeg]:i.imgur.com

618(1): 06/23(月)20:37 ID:/qScaGrz0(1) AAS
>>617
19　インスマウスの影
たちが、いろいろ毛色の変わった各地の人間を連れてきたということもよくごぞんじのことと
思います。セイラム（マサチュセッツ州北東部にある港町）の男が支那人を妻にして帰ってきたという話をお聞きに
なったことがあるでしょう。それに、ほら、どこかコッド岬（マサチュセッツ州にある大西洋につきだした岬）の近くに
は、フィジー諸島（太平洋南部の英領植民地）の住民がいまでも大ぜいいるそうじゃありませんか。
　まあ、なんですね、インスマウスの連中の背後には、なにかそんなことがあるにちがいあり
ませんな。あの町は、沼や入江がたくさんあって、よその町とはいつも連絡が遮断されたよう
な形になっているものですから、くわしいことはよくわからないんです。が、マーシュ老船長
が、自分に任されている三隻の船を使って、二十人、三十人と、妙な住民たちを連れ帰ったに
省14

619: 06/24(火)05:48 ID:0WVb4N5Y0(1/2) AAS
>>617
ありがとうございます。帰ったらやってみます

620: 06/24(火)19:12 ID:0WVb4N5Y0(2/2) AAS
>>618
自分の環境では3倍でうまくいきました！ありがとうございます

621: 06/29(日)08:10 ID:iQ6N++/I0(1/2) AAS
非常に高速なプログラムではUIの更新がボトルネックになるそうだけど
デバッグ出力を止めたら速くなりそう

622: 06/29(日)08:24 ID:iQ6N++/I0(2/2) AAS
エラーが発生したファイルはWait listに残りますが、もう一度やり直せませんか？
Windows版です

623: 07/22(火)10:44 ID:n3CEfl3W0(1/2) AAS
読取革命を持っているがPDFにOCRをかけてPDFで保存すると元画像を維持できない
FineReaderは画像を改変しないとのこと(AIで調べただけ)
FineReaderを使っている方　いかがですか

624: 07/22(火)16:19 ID:n3CEfl3W0(2/2) AAS
FineReaderはバージョン16になるとサブスクだけになるようだ
今はまだソースネクストで15の買い切り版が買える
27,500円と安くはないけど

ScanSnap付属の古いバージョンは持っているがOCR精度はよくない
元画像は維持されるから有料バージョンでも同じだとは思うが

625: 07/28(月)16:51 ID:z8/RWwAJ0(1) AAS
ScanSnap SV600に付属していたScanSnap Organizerをずっと使っていたが
PCのクラッシュを機に後継のScanSnap Homeをインストールしてみた
日本語縦書き雑誌をOCRしてみたが精度は変わらなかった
ScanSnap Homeは使いにくいので元に戻そうかな

bunkoOCRの精度が最も高いことはわかっているがPDFに埋め込めないのが残念

626: 07/29(火)04:24 ID:PZp6wd/J0(1/2) AAS
bunkoOCRで埋め込みPDFを作るべく、フォーマットのお勉強してるのでしばしお待ちを
いまここまで来た
外部ﾘﾝｸ:github.com

627: 07/29(火)04:43 ID:xGNOwNOF0(1) AAS
すばらしい
楽しみにしてます

628(1): 07/29(火)08:58 ID:zpxe7x9j0(1/6) AAS
それはありがとうございます　期待してお待ちします

もう１つお願いがあります
市販品のスペックを見るとオプションでOCRをリフローにできるものがあります
外部ﾘﾝｸ:www.sourcenext.com とか
改行が削除されることで改行をまたいだ検索ができます
ご検討いただけるとうれしいです

629(1): 07/29(火)09:57 ID:dUNWvHL20(1/2) AAS
>>628
画像の文字の場所に埋め込むとすると、行の切れ目で分けざるを得ないのですが、
Acrobat readerとかは次の行っぽい場所にあればくっつけてくれるようです。
リフローOCR処理されたpdfのサンプルってありますか。どうやってるのかがわからないので、どうやって実装するのかかがわからんのです。

630(1): 07/29(火)10:50 ID:zpxe7x9j0(2/6) AAS
>>629
Acrobat Readerのその挙動には気付いていましたが必ず検索できるとは限らないようです
リフローならば確実に検索できるでしょうね
PDF OCRソフトはほとんどサブスクになってしまってしかもボッタくりの値段ですね
ソースネクストの旧版FineReader 15は買い切りなのでちょっと高いけど買って試してみようかと思っています
（読取革命は買ってありますが問題外）

631(2): 07/29(火)12:27 ID:dUNWvHL20(2/2) AAS
>>630
場所がページ内のどこでもいいなら、全文貼るのは簡単なんですが。
場所を合わせつつ、切れないようにするのができないので、なんか裏技あるんかしらと

632(1): 07/29(火)14:14 ID:OmU0uGtN0(1) AAS
>>631
これとかどうですか
外部ﾘﾝｸ[pdf]:www.antenna.co.jp
外部ﾘﾝｸ[pdf]:www.antenna.co.jp

633(1): 07/29(火)18:26 ID:zpxe7x9j0(3/6) AAS
>>631
きちんとしたPDFエディタを持っていないのでFineReader 15を買ってみてしまいました
リフローのオプションはPDFには無くて、テキストやワードファイルに保存する場合だけでした
しかも段落の認識精度は低い

けしからんことには画像を変えずにOCRの透明テキストを追加することができませんでした

634(2): 07/29(火)19:09 ID:PZp6wd/J0(2/2) AAS
>>632
サンプルありがとうございます。

いまのところこんな感じなんですが、内部的な処理としては同じようにTjコマンドで
順番に出してるのですけど、これで皆さんの環境で検索可能になってますか。
外部ﾘﾝｸ[pdf]:github.com

>>633
ありがとうございます。
画像をそのままにして、ごにょごにょするのって実はめちゃくちゃむずいんです。
とりあえずの目標は、官報を全文検索可能にするテストですが、デコードややこしい。
模様の付いたタイトルとかも実は画像だったりもして、そういうのは弾かなきゃなのでまたややこしい

635: 07/29(火)19:42 ID:zpxe7x9j0(4/6) AAS
>>634
リフローなんてPDFではできないものだと思ってしまいました
余計なことを書いてすみませんでしたと謝らなければいけないのかと思ったのですが
官報を全文検索可能にするテストとは驚きました
期待しております

サンプルはAcrobat Readerで検索できています

636: 07/29(火)20:20 ID:zpxe7x9j0(5/6) AAS
サンプルIMG_2399.pdfで「婆さん」を検索すると24行目末尾は検索されません
リーダーが改行をまたいで検索するオプションを持っいてくれれば済む話だとと思うんですがね

637: 07/29(火)21:16 ID:Lj85Uz1y0(1) AAS
>>634
サンプルIMG_2399.pdf

SmatraPDFで行末跨ぎ検索(「婆さん」など)やctrl+aで全選択してクリップボードコピーが出来ました
ただし行が傾いているせいか、マウスでの文字選択がトリッキーです
(選択してても所々カーソルの様な選択幅しか表示されない、実質無害ですが)

PythonのMyMuPDF(SmatraPDFも同じmupdfエンジン)でもテキスト抽出できました

638: 07/29(火)21:38 ID:zpxe7x9j0(6/6) AAS
SmatraPDFは使ったことがありましたがそんな機能があったとは気付きませんでした
本家も見ならってほしい

639: 07/30(水)10:24 ID:kWSxFREE0(1/2) AAS
Acrobat Readerで行跨ぎ検索が効くのは検索語句が漢字語句かカタカナ語句に限られるような感じがする
よって「婆さん」には効かない
Windowsサーチ用のAcobat Reader付属のiFilterも同じである様子

640: 07/30(水)17:33 ID:aKBiOqsf0(1) AAS
Mac版のAcrobat readerだと、「婆さん」で改行かかっててもヒットするな。バージョンによるのかしら
座標を絵に合わせてTmで配置し直してるけど、前の行の近傍にある場合だけ、後続のTjがくっつく動作になってるっぽい。
Macのプレビューだと、そういう行は切れちゃう。

641(1): 07/30(水)17:41 ID:a4kXxPog0(1) AAS
自分はAcrobat ReaderをインストールしてないですがエクスプローラーからPDF検索出来てます
(「婆さん」は何箇所もあるので別のものだと「そうした気候の恩恵」など)

Windowsデフォルトのハンドラーが使われているようです
(SumatraPDF IFilterもありますがインストールしてなかった)

Computer\HKEY_CLASSES_ROOT\CLSID\{6C337B26-3E38-4F98-813B-FBA18BAB64F5}
Reader Search Handler
%systemroot%\system32\Windows.Data.Pdf.dll

642(1): 07/30(水)18:53 ID:q9Qt2B2X0(1) AAS
みなさん検証ありがとうです。
だいたい行けそうな気配がするので、この方針でpdf埋め込み行くことにします。
bunkoOCRに入れ込むので、もうちょっと待っててください。

643(1): 07/30(水)18:59 ID:kWSxFREE0(2/2) AAS
自分のPCも調べたらWindows標準のPDF検索機能が使われていて「そうした気候の恩恵」もマッチしました
Acrobat ReaderをインストールしていたのでてっきりそのiFilterだと思い込んでいました

何を見て「Windowsサーチ用のAcobat Reader付属のiFilterも同じである様子」なんていう嘘を書いてしまったんだろう
すみませんでした
Explorerの検索はよく使っているのでうれしい結果でした

644: 07/30(水)20:12 ID:bAZ+wc1s0(1) AAS
>>642
良かったです、よろしくお願いします

>>643
すみません、少し複雑なので省略しました
実際にはここに書いてある順番で調べていく必要があります
外部ﾘﾝｸ:learn.microsoft.com
外部ﾘﾝｸ:learn.microsoft.com

自分の場合に使用されているifilterを示したかったのですが、>>641のレジストリーだけで決定されるわけではなく
Computer\HKEY_LOCAL_MACHINE\SOFTWARE\Classes\.pdf\PersistentHandler (Defalut)={1AA9BF05-9A97-48c1-BA28-D9DCE795E93C}
Computer\HKEY_CLASSES_ROOT\CLSID\{1AA9BF05-9A97-48c1-BA28-D9DCE795E93C}\PersistentAddinsRegistered\{89BCB740-6119-101A-BCB7-00DD010655AF}
省4

645: 07/31(木)07:22 ID:fhhSIdzX0(1) AAS
スマホのアプリでいくつか試したけど上のサンプルのでもできたりできなかったりするのでアプリ側が行跨いで検索する機能があるかどうかがまずあって、
サンプルのだとできたアプリでも自前のpdfだとできる文章とできない文章があるからpdfでも対応してなきゃいけないみたいですね

646: 07/31(木)09:47 ID:CGA+N+8R0(1) AAS
AIに聞いてみたら行跨ぎ検索に対応しているリーダーはWinでは有償無償含めてSumatraしかないそうだ(AIは堂々と嘘書くから信用はしてないが)

PDFでリフローのような構造が存在するのかどうかは存じませんがbunkoOCRテキスト出力にもリフローのオプションを用意していただけらうれしいです
それくらい自分でスクリプトなりなんなり書けと言われてしまうかもしれませんが本体に機能があると便利ですので

647: 07/31(木)11:31 ID:6fw8HGOu0(1) AAS
ググったらAI Overviewと言うのが表示されて、リフローPDFなるものは無いそうです

While PDF itself is not inherently reflowable, the Reflow feature in PDF viewers allows text to adjust to different screen sizes, making it easier to read on various devices. This feature is available in applications like Adobe Acrobat and similar PDF readers.

Here's a more detailed explanation:

PDFs are typically designed with a static layout:
This means the text and images are placed in a fixed position on the page, similar to a printed document.

Reflow mode rearranges the content:
When you enable reflow in a PDF reader, the text is reorganized into a single column that adapts to the screen width, eliminating the need for horizontal scrolling when zooming in or reading on smaller screens.
省7

648: 08/01(金)18:30 ID:2SdW+XUv0(1) AAS
論文雑誌の画像スキャンOCR例がありましたので何かの参考までに
外部ﾘﾝｸ:www.jstage.jst.go.jp

SumatraPDFですが
段組み内の改行跨ぎ検索は大丈夫、例「新聞やテレビ」
段組み跨ぎやページ跨ぎはダメでした、例「リアルタイム」

OCR処理ではなく画像処理の問題ですが、スキャン画像の傾きが補正されていて
画像は白黒ディザリングでサイズダウンしている様です

649: 08/02(土)06:49 ID:9+Bx6sl60(1/2) AAS
官報でやってみた
埋め込みPDF
外部ﾘﾝｸ[pdf]:github.com
オリジナル
外部ﾘﾝｸ[pdf]:github.com

13ページくらいから、条約の原文が画像で貼ってあるのをテキスト検索できるようになった、と思う。

あとは、どういう感じで画像を抽出しつつOCRして戻すのをやるかを考え中。
自分で遊びたい人は、ソースはこれ
外部ﾘﾝｸ:github.com
C++でコンパイルする必要があるけど

650(2): 08/02(土)16:51 ID:H4rP2k+Q0(1) AAS
官報のレイアウト難易度凄いですね(縦書き横書き、回転文書画像など)

しかも縦書きTrue PDF部分ではクリップボードコピーしたら一文字毎に改行されてました
(改行を取った状態『「第六十条第三項第一号」に改め、「規定による」を削り』などで検索は出来ますが)

これはもう対応しなくて良いと思いますが、OCR部分で気が付いたのがP25の点線囲いの部分が誤認識してる様です

４第一項及び第二項の規定による立入検査の権限は、犯
罪捜一査のためにーー認ーめーーられーーたーものーーとー解釈してーーーーーーーーはーならない。ーーーー
第百六条次の各号ーのいずれかに該当するときーはー、そ」の違
反行為をした者は、三十万円以下の罰金に処する。
一〜七（略）
八第七十二条の二第一項又は第二項の規定に違反し
省4

651(1): 08/02(土)17:11 ID:9+Bx6sl60(2/2) AAS
>>650
そこの点線は誤認識してますね。
一応点線っぽいところは自動で外すロジックになってるのですが、文字に近接しすぎているので場所的に
ふりがな扱いの伸ばし棒と誤認されて拾ってしまってますね。
これはもう無理ゲー
前処理で、罫線を見つける処理を走らせてマスクする必要がありそう。

652: 650 08/02(土)18:46 ID:vzahj3Pe0(1) AAS
>>651
ですよね、どんなシステムで文書作成してるのか逆に気になります

>>650の「一文字毎に改行され」がSumatraPDFのせいなのかと思い、
観念してAdobe Acrobat Reader DCをインストールした所、その通りでした(64bit version 25.001.20577)

官報のTruePDF縦書きクリップボードコピーも「一文字毎に改行」はされなくて連続してコピーされ
さらにIMG_2399.pdfの「婆さん」の行跨ぎ検索も出来てます

縦書き文字列のマウス選択操作もSumatraよりも断然正確でした
(行が傾いていてもその傾き通りに選択状態になる)

653: 08/03(日)12:00 ID:pu/nbpro0(1) AAS
ScanSnap用のScanSnap OrganizerやScanSnap HomeのOCRエンジンはABBYY製だと言われているので、
製品版ABBYY 15を高い金を出して買ってみたのだが、OCR精度(縦書き日本語)はScanSnap用よりも悪いし、
画像を変えずにPDFにOCR埋め込みはできないし、他のソフトでPDFに埋め込んだOCR透明テキストは編集できないし、
OCR後のリフローテキスト出力は段落認識の精度が悪いし、といった具合で、金をドブに捨てた感じ

654: 08/04(月)08:03 ID:WQjkdvzc0(1/2) AAS
PCをリカバリーしたら自分がScanSnapを買った時付いていたPower PDF Standardの認証ができなくなっていた
ベンダーが変わったからそんなこともあろうかと事前に調べてテストしておいたのだがライセンスは
HKEY_LOCAL_MACHINE\SOFTWARE\WOW6432Node\Licenses
に保存されているのでそれをregファイルにエクスポートしておいてインストール後実行前に開けばよろし
それにしても無責任なことだな

Power PDF StandardはScanSnap Orgaizer/HomeよりもOCRの精度が高い(日本語縦書)
欠点は既にOCR透明テキストが存在していても消してくれずOCRが二重になってしまうこと

655: 08/04(月)08:30 ID:WQjkdvzc0(2/2) AAS
その後気付いたのだがこういうページがあった
外部ﾘﾝｸ:faq.pfu.jp
でもregファイルで保存しておく方が認証を気にせずに済み、何台でもインストールできて(そんなことはしないけど)いいと思う

上下前次 1-新書関写板覧索設栞歴

ｽﾚ情報赤ﾚｽ抽出画像ﾚｽ抽出歴の未読ｽﾚ AAｻﾑﾈｲﾙ

ぬこの手ぬこTOP 1.211s*