[過去ログ] 【SH506iC】携帯で電子書籍(XMDF,TEXT)【V602SH】 (982レス)
前次1-
抽出解除 必死チェッカー(本家) (べ) 自ID レス栞 あぼーん

このスレッドは過去ログ倉庫に格納されています。
次スレ検索 歴削→次スレ 栞削→次スレ 過去ログメニュー
932
(20): 05/02/06 01:20:27 ID:MFqjkQuC(1/14)調 AAS
>>928
作ってみた。
外部リンク:baku.zive.net
PDFの解釈までやる知識はないので、PDFからのテキスト抽出はxdoc2txt使用。
949
(1): 932 05/02/06 17:21:38 ID:MFqjkQuC(2/14)調 AAS
>>948
Q1:展開したフォルダの中にxdoc2txt.exeとzlib.dllはコピーしてありますか?
Q2:説明書にあるようにsakkade2txt.batへのショートカットを同一フォルダ内に作り、
  そこにドラッグ&ドロップしましたか?
(直接sakkade2txt.batにドラッグ&ドロップすると、作業フォルダがドラッグ&ドロップした
 ファイルのフォルダになるようで、動作しません。)
951: 932 05/02/06 17:28:13 ID:MFqjkQuC(3/14)調 AAS
>>938
 RubyプログラムをWindowsで単体で動くEXEファイルにすることはできるらしいけど、
面倒なのでやってない。
 xdoc2txtの同梱は作者に許可を取ればできるけど、面倒なのでやってない。

 所詮自分自身のために作ったソフトなので、公開に当たって最低限の説明を
付け加えたけど自分では困らない事には手をつけていない。
 改造・再配布は自由なので、初心者にも簡単に使えるようにしてやろうと思う
有志がいたら好きにいじって使いやすくして公開してくれると嬉しい。
953
(1): 932 05/02/06 18:02:41 ID:MFqjkQuC(4/14)調 AAS
>>952
 "sakkade2txt.batへのショートカット"のプロパティを開いてください。
 ショートカットタブの[作業フォルダ]はsakkade2txt.rbやxdoc2txt.exeの
あるフォルダになっていますか?
955: 932 05/02/06 18:17:03 ID:MFqjkQuC(5/14)調 AAS
>>934
 俺が読みたかったので問題なし。
 空行の処理とか会話文直後の処理とかでなんかいい案があったらいじってくれると
ありがたい。

 Windowsのデフォルトのプログラム置き場が"C:\Program Files"以下ってのは
罠だよな。ファイル名・フォルダ名に空白入れるなよ…。BATファイルで呼び出す
ときにはいちいちダブルクォーテーションで囲まなきゃならんし…。
って、囲めば問題ないか。
 公開しているアーカイブのbatファイルのruby呼び出し部を""で囲んだ。
これで、Program Files以下にインストールしてあってもたぶん大丈夫。
956: 932 05/02/06 18:22:24 ID:MFqjkQuC(6/14)調 AAS
>>954
 うーむ。作業フォルダはちゃんとしていてxdoc2txt.exeもあるのに
うまくいかない、か。
 sakkade2txt.batは作業をまとめてやるので問題を切り分けにくいので、
順を追って試してみよう。

 仮にsf01.pdfを整形するとします。

■STEP1
 sakkade2txtを展開したフォルダにてコマンドプロンプトを実行してください。
(任意のフォルダでコマンドプロンプトを実行するには、「窓の手」を
 インストールして、右クリックメニューの 「任意のフォルダーから
 コマンドプロンプトを可能にする」を有効にすると便利です。)

以下のコマンドを実行してください。
xdoc2txt -f sf01.pdf

 "sf01.txt"はできましたか?
957: 932 05/02/06 18:23:07 ID:MFqjkQuC(7/14)調 AAS
■STEP2
 以下の内容
SET RUBYPATH=C:\usrlocal\ruby-1.8\bin
"%RUBYPATH%ruby" -v
pause
のBATファイル"test0.bat"を作って、実行してください。
(RUBYPATH=〜はインストールしたRubyのruby.exeのあるフォルダに
 書き換えてください。デフォルトは作者の環境のになってます。)

ruby 1.8.2 (以下省略)

と表示されますか?

■STEP3
 以下の内容
SET RUBYPATH=C:\usrlocal\ruby-1.8\bin
"%RUBYPATH%ruby" sakkade2txt.rb < sf01.txt > sf01_.txt
のBATファイル"sf01conv.bat"をを作って、実行してください。
(RUBYPATHに関する注意はSTEP2と同様)

 "sf01_.txt"に整形されたテキストファイルが出力されていますか?
961: 932 05/02/06 19:00:57 ID:MFqjkQuC(8/14)調 AAS
>>958-959
 すまん。配布ファイルのBATのruby呼び出し部を""で囲まなかった俺のミスだな。
 俺の環境だと、そういうのが面倒だからフリーウェアの類はC:\usrlocal以下に
置くので気づかなかった。
963
(1): 932 05/02/06 19:06:02 ID:MFqjkQuC(9/14)調 AAS
>文芸賞別作品集の「最後の脚本」をテキスト化させてみたんですが
>なぜかPDFにて全49枚中41枚目までしかテキストにできません。

 うちでは、最終ページの
>『最後の脚本』
> ナチ著
> sakka.org
ってところまでちゃんと変換されています。

 ただ、実際に変換したPDFはごく一部なので、うまく変換できない
ファイルがある可能性は大です。
965: 932 05/02/06 19:14:46 ID:MFqjkQuC(10/14)調 AAS
>>962
>ウィングス小説大賞の「LADY BE GOOD」が
>PDF65ページ中55ページまでしかテキスト化されませんでした。

 xdoc2txtが出力するデータが56ページ以降無し。

>また朝日新人文学賞の「The Closed Tower」は
>変換前にエラー終了になりました。

 xdoc2txtがエラーを吐いて終了。

…というわけで、sakkade2txt側では対処できません。

 Adobe Readerで連続表示にして「全てを選択」「コピー」でテキストを
切り取って、テキストエディタに貼り付けて保存。その後何らかのフィルタに
かける。という手がありますが、当然整形スクリプトは新たに書き起こす
必要があります。
966: 932 05/02/06 19:20:45 ID:MFqjkQuC(11/14)調 AAS
>>964
 確かめました。たしかに、ありませんね。
 xdoc2txtの出力を確認したところ、途中で出力がとぎれていました。
元々「空の光に想いを馳せて」を読むためにsakkade2txt.rbを作ったのだけど、
これもダメだ。とほほ…。orz

 xdoc2txtの使用はあきらめて、Adobe Readerから全てを選択・コピーした
文章を整形するスクリプトを作ってみます。
967
(1): 932 05/02/06 19:49:31 ID:MFqjkQuC(12/14)調 AAS
 作ってみた。まだまとめてないけど、とりあえず公開。
外部リンク[sjis]:baku.zive.net
ダウンしたファイルをw.rbとでもリネームして(しなくてもいいけど)
ruby w.rb < 変換元 > 変換先
で変化できる。コマンドラインのさわり方とかリダイレクトとかがわからない人は
ちょっと待ってくれ。
 小説は終わりを先に読むとネタバレするので、うかつにチェックできん…。
読むの速い人チェックキボンヌ。

 ところで、もう残り40を切っているので次スレが必要ですな。
 俺はケータイに関してはあまり詳しくないので、誰か詳しい人テンプレ
作ってくれんかのぅ。
970: 932 05/02/06 23:18:21 ID:MFqjkQuC(13/14)調 AAS
 Adobe Readerから「全てを選択」「コピー」したデータを整形出力する
新バージョンできました。
外部リンク:baku.zive.net

いちおう、旧バージョンも残してあります。使い道無いですけど。
外部リンク:baku.zive.net
971: 932 05/02/06 23:37:55 ID:MFqjkQuC(14/14)調 AAS
 整形精度に改善の余地ありです。
 今のプログラムは段落の判断を行末に"。"があるかどうかだけで
行っているので、

プロローグ

と書いてあったら、文が次の行に続くと判断してそこで改行しません。

 行の文字数を判断の助けにすればもっとマシになるはずですので、
もうちょっといじってみます。
前次1-
スレ情報 赤レス抽出 画像レス抽出 歴の未読スレ

ぬこの手 ぬこTOP 0.809s*