【文字認識】OCRソフト【自炊】 [無断転載禁止]©2ch.net

[過去ﾛｸﾞ] 【文字認識】OCRソフト【自炊】 [無断転載禁止]©2ch.net (882ﾚｽ)
上下前次1-新
抽出解除ﾚｽ栞

このｽﾚｯﾄﾞは過去ﾛｸﾞ倉庫に格納されています｡
次ｽﾚ検索歴削→次ｽﾚ栞削→次ｽﾚ過去ﾛｸﾞﾒﾆｭｰ

ﾘﾛｰﾄﾞ規制です｡10分ほどで解除するので､他のﾌﾞﾗｳｻﾞへ避難してください｡

42(7): 名無しさん＠お腹いっぱい。 [sage] 2018/04/08(日)00:49 ID:VYgJDjR/0(1/2)
Ubuntuで最新tesseractビルドでも高精度認識できたよー
とりあえずスクショだけ
https://i.imgur.com/saI3kEb.jpg

https://i.imgur.com/Gs7Mokj.jpg

ビルドのやり方とかは希望あればまとめます

43(1): 名無しさん＠お腹いっぱい。 [sage] 2018/04/08(日)01:18 ID:q/iTgbtt0(2/3)
>>42
そっちの方が参考になった
やっぱり文章レイアウトの認識はあんまりみたいだな

45(1): ハカーを待ちながら [sage] 2018/04/08(日)01:53 ID:I+ikD/OI0(1)
>>42
すげえ！！　神が降臨した。

ビルドのやり方ぜひ！　まとめて下さい。

>>44
うーん、気持ちは分かるんだけど縦書きの日本語小説だけがターゲットの者にとっては、
レイアウト情報以前に少しでも正確なプレーンテキストを得られそうなことが凄いのよ。

まあでもAIが正確なテキストを作ることに飽きたら、今度は正確なレイアウト情報の
再現に、ほっといても邁進してくれることでしょう。

47(2): 42 [sage] 2018/04/12(木)00:27 ID:EyDdIten0(1/2)
遅くなってすまん
まとめるとか偉そうに言ったけどほぼに↓の通りにやっただけ
https://ameblo.jp/yoshihirow/entry-12280797214.html

1. コンパイルに必要なライブラリのインストール
2. Leptonicaのコンパイルとインストール
3. tesseract-ocr 4.0.0β のコンパイルとインストール
4. 言語データtessdataのダウンロード
5. サンプル画像でOCRのテスト

注意点としては
2.Leptonicaは公式でtar.gz貰ってくるとconfigureで引っかかるので
githubから最新ソース落としてmakeする

$ git clone --depth 1 https://github.com/DanBloomberg/leptonica.git
$ cd leptonica
$ ./autobuild
$ ./configure
$ make
$ sudo make install

4.言語データはすべて tessdata_fast (https://github.com/tesseract-ocr/tessdata_fast)を使う
jpnとjpn_vert両方入れるのが胆

5.サンプル出力 ver.4では--oem 0と2のオプションはエラーになるので使わない
言語指定は -l jpn+jpn_vert が一番精度良くなるよ

48: 42 [sage] 2018/04/12(木)00:28 ID:EyDdIten0(2/2)
他所の環境でちゃんと動くかは分からないけど
コンパイル手順を自動化したスクリプトとビルド済みパッケージ置いときます
作成&テスト環境
　　windows10 WSL Ubuntu 16.04.4 LTS
　　vagrant ubuntu/xenial64 (vurtualbox)

ビルド自動スクリプト --> https://www.axfc.net/u/3902696.zip
ビルド済パッケージ(.deb) -> https://www.axfc.net/u/3902697.zip

738(1): 名無しさん＠お腹いっぱい。 [sage] 2023/02/05(日)11:30 ID:hZxF6hQl0(1)
>>42
おーすげー！
耳読書するようになったら、自炊本のpdf読み上げさせたら読み上げる順番がぐちゃぐちゃなことがわかって、縦書き日本語文章のOCRの限界を知ったとこなので、こんなにうまく抽出できるならやり方知りたい。

740(1): 名無しさん＠お腹いっぱい。 [sage] 2023/02/07(火)00:14 ID:+RHuKHOQ0(1)
>42書いたの自分だけど別に無理にlinuxでやる必要ないよ
当時 tesseractエンジン使ってるVietOCRが本家より妙に精度が良くて
Viet通さず本家だけで再現できないかと試行錯誤してただけ
linuxにこだわってたのは単に>39の人がwin環境じゃなかったからでwin版バイナリもある

このときのまとめは>47
当時βテスト中だったtesseract 4.0.0と tessdata_fastの言語データを使うことだった
今はアプデされてるのでもっと楽にセットアップできるのかも知れない

精度について補足すると結構フォントやレイアウト依存というか
ばっちり拾える時もあれば全くあかんときもありました、過信は禁物

742: 名無しさん＠お腹いっぱい。 [sage] 2023/02/07(火)22:17 ID:A6YngpKC0(1)
このスレにも荒らしが湧いて、もうココもダメかなと
思ってしまったが、まだ出入りする同志がいてしかも
過去のネタも参照されてたのかと思うと、ちょっと感涙。

当時お世話になりました>>42
そんな私は>>39

上下前次1-新書関写板覧索設栞歴

ｽﾚ情報赤ﾚｽ抽出画像ﾚｽ抽出歴の未読ｽﾚ AAｻﾑﾈｲﾙ

ぬこの手ぬこTOP 0.056s