【文字認識】OCRソフト【自炊】 [無断転載禁止]©2ch.net

[過去ﾛｸﾞ] 【文字認識】OCRソフト【自炊】 [無断転載禁止]©2ch.net (882ﾚｽ)
上下前次1-新
抽出解除ﾚｽ栞

このｽﾚｯﾄﾞは過去ﾛｸﾞ倉庫に格納されています｡
次ｽﾚ検索歴削→次ｽﾚ栞削→次ｽﾚ過去ﾛｸﾞﾒﾆｭｰ

75(6): 名無しさん＠お腹いっぱい。 [sage] 2018/06/01(金)10:48 ID:Qi+8uYQ40(1/3)
同好の士がいるみたいなので私のやり方の一つを紹介

縦書き小説のテキスト化限定
段組み無しか2段組み程度のレイアウトの単純なもの限定
読取革命使用前提

スシャン画像の傾き補正余白除去など画像処理を程々にする

処理した画像を横に8ページ分つなげる（2段組みの場合は縦に6ページ）※これが校正作業効率化の肝

つなげた画像を読み込ませて読取革命で作業

認識率アップは程々に
校正作業効率アップの方が気楽

79(1): ハカーを待ちながら [sage] 2018/06/15(金)21:07 ID:lat6DNLI0(1)
>>75-77
新たなノウハウの提供ありがとうございます。

OCRからの校正作業は未踏の部分が多いし、未だ正解がある訳でもないですから、
こうして持ち寄ったノウハウが少しでも蓄積していくと良いですね。

透過して元画像とテキストを重ねるってのは自分も一度は考えたけど、当時
Linuxでまともに縦書き表示のできるテキストエディタとかワープロはなかった
ので、結局縦書きの元画像と横書きのOCR化テキストを横に並べて見比べるしかなかった。

まあでもLinuxも悪いところばかりじゃなく、1ページずつ200件超えに分割されたまま
一冊分のテキストファイルをタブで全部開き（ページの移動はタブ上でスクロール）、
開いた全ページに跨って検索/置換ができるBluefish（本来はHTMLエディタ）とか
Geany（本来はIDE）が使えるので、Meryやotbedit時代のように検索/置換のために
ひとつのファイルに結合してから校正という手段を取らなくて済むのは良かった。
（好みというか選択肢の問題ね）

今は元画像とテキストファイルを一対一で、突き合わせが終わった分だけ閉じています。

ただ何故かLinuxのエディタって行間を広げるオプションがないのが多くて、仕方なく
ttfname3.exeを用いて（Wineで実行）フォント側で行間を広げる加工をしたのは余談。

139(2): 名無しさん＠お腹いっぱい。 [sage] 2019/05/08(水)21:36 ID:mvroD7C30(1)
>>75　に追加

読取革命でほとんどのエラー（フリーズ、エンドレス処理など）は
属性変更→認識→文字種→
で「記号」のチェックを外すことで回避できる
必要な記号は「ユーザー定義」欄に入れる
「」『』（）、。ー…・！？々　など

ようやく気付けた・・・
私の環境だけ？

432(1): 名無しさん＠お腹いっぱい。 [sage] 2021/12/12(日)21:56 ID:flVhFSAg0(4/4)
待ってくれ

どうやら俺が持っているノウハウの方向性と、皆の期待している方向性とが違う可能性が高いようだ

実は俺は>>75なんだ

校正作業するのが前提でその効率化のノウハウなんだ

447(1): 名無しさん＠お腹いっぱい。 [sage] 2021/12/19(日)21:57 ID:slxgE1fB0(1/2)
校正作業を効率化

>>435の続き

条件は>>75
今回は二段組の場合

https://light.dotup.org/uploda/light.dotup.org10755.jpg

スキャン画像をこんな風に作り変える

染みゴミ取り漂白
傾き補正
二段組ページを上下分割余白消し
14ページ分を左右上下に張り合わせて一枚にする
横につなげるときは右から左ね

これ以上ページを増やしたら読取革命で読み込めるけど
テキスト保存したとき字数（行数）？制限で後ろのほうが削られてしまう
たぶん

読取革命の設定こまごま
後述

キーボードマクロ
後述

689: 名無しさん＠お腹いっぱい。 [sage] 2023/02/01(水)15:53 ID:7ts5835c0(1)
>>75
eスポーツ以外のプロスポーツでも差別だから規制するようになってしまってくる狂った状態なんだよ

707: 名無しさん＠お腹いっぱい。 [sage] 2023/02/01(水)15:57 ID:T3VNUqcu0(1)
>>75
海外のリベラルはレイシストじゃなくてマニュアルな

上下前次1-新書関写板覧索設栞歴

ｽﾚ情報赤ﾚｽ抽出画像ﾚｽ抽出歴の未読ｽﾚ AAｻﾑﾈｲﾙ

ぬこの手ぬこTOP 0.046s