[過去ログ] 【まず1嫁】くだすれPython(超初心者用) その58 (1002レス)
上下前次1-新
抽出解除 必死チェッカー(本家) (べ) 自ID レス栞 あぼーん
このスレッドは過去ログ倉庫に格納されています。
次スレ検索 歴削→次スレ 栞削→次スレ 過去ログメニュー
リロード規制です。10分ほどで解除するので、他のブラウザへ避難してください。
819(2): 2023/05/18(木)11:58 ID:aICdVmJ+(1/2) AAS
pdfminerでページごとにテキストを抽出しようとしているのですが、
Aの抽出にすると何故か次ページの情報まで含まれてしまいます。
Bの方法だとちゃんと該当ページの情報だけになるのですが、
テキストグループ単位で改行されないのでちょっと都合が悪いです。
Bの方法でテキストグループ単位でセパレートすることはできるのでしょうか?
A: device = TextConverter(rsrcmgr, retstr,codec=codec,laparams=LAParams())
B: device = TextConverter(rsrcmgr, retstr,codec=codec)
820: 819 2023/05/18(木)13:17 ID:aICdVmJ+(2/2) AAS
とりあえずは自己解決しました。
PDFの方で非表示情報を削除することで解決しました。
上下前次1-新書関写板覧索設栞歴
スレ情報 赤レス抽出 画像レス抽出 歴の未読スレ
ぬこの手 ぬこTOP 0.028s