[過去ログ] 【SH506iC】携帯で電子書籍(XMDF,TEXT)【V602SH】 (982レス)
前次1-
抽出解除 レス栞

このスレッドは過去ログ倉庫に格納されています。
次スレ検索 歴削→次スレ 栞削→次スレ 過去ログメニュー
932
(20): 05/02/06 01:20:27 ID:MFqjkQuC(1/14)調 AAS
>>928
作ってみた。
外部リンク:baku.zive.net
PDFの解釈までやる知識はないので、PDFからのテキスト抽出はxdoc2txt使用。
933: 05/02/06 01:54:56 ID:cFA+rtzq(1/4)調 AAS
>>932
ネ申!!
934
(2): 05/02/06 03:10:02 ID:s1ntQ2lp(1/5)調 AAS
アクセス制限に巻き込まれている上、大学鯖に設置しておいた
串も死んでいるので携帯から書き込み。

>>932
おつ! 本来なら自分で組まないといけないんだけど、
試験期間中で時間が取れなかったorz
とにかく助かりました。試験が一段落したら読みまくるぞー。

ああ、そうそう、PerlとPHPしかインストールしてなかったので
今回Rubyをインストールしたのだけど、空白を含んだ場所に
インストールするのは不味いってことを失念してた。
今からインストールする人は注意。自分はショートパス使って対処しました。
939
(1): 05/02/06 15:49:37 ID:+vSELdFP(1/2)調 AAS
>>932
お疲れ様です!

俺も空テキストが作成されるだけだ
>>937さん
のもやったんだけどエラーがでる
OSはXPSP1

これ使えると凄い便利そうなんだけどなぁ
949
(1): 932 05/02/06 17:21:38 ID:MFqjkQuC(2/14)調 AAS
>>948
Q1:展開したフォルダの中にxdoc2txt.exeとzlib.dllはコピーしてありますか?
Q2:説明書にあるようにsakkade2txt.batへのショートカットを同一フォルダ内に作り、
  そこにドラッグ&ドロップしましたか?
(直接sakkade2txt.batにドラッグ&ドロップすると、作業フォルダがドラッグ&ドロップした
 ファイルのフォルダになるようで、動作しません。)
951: 932 05/02/06 17:28:13 ID:MFqjkQuC(3/14)調 AAS
>>938
 RubyプログラムをWindowsで単体で動くEXEファイルにすることはできるらしいけど、
面倒なのでやってない。
 xdoc2txtの同梱は作者に許可を取ればできるけど、面倒なのでやってない。

 所詮自分自身のために作ったソフトなので、公開に当たって最低限の説明を
付け加えたけど自分では困らない事には手をつけていない。
 改造・再配布は自由なので、初心者にも簡単に使えるようにしてやろうと思う
有志がいたら好きにいじって使いやすくして公開してくれると嬉しい。
953
(1): 932 05/02/06 18:02:41 ID:MFqjkQuC(4/14)調 AAS
>>952
 "sakkade2txt.batへのショートカット"のプロパティを開いてください。
 ショートカットタブの[作業フォルダ]はsakkade2txt.rbやxdoc2txt.exeの
あるフォルダになっていますか?
955: 932 05/02/06 18:17:03 ID:MFqjkQuC(5/14)調 AAS
>>934
 俺が読みたかったので問題なし。
 空行の処理とか会話文直後の処理とかでなんかいい案があったらいじってくれると
ありがたい。

 Windowsのデフォルトのプログラム置き場が"C:\Program Files"以下ってのは
罠だよな。ファイル名・フォルダ名に空白入れるなよ…。BATファイルで呼び出す
ときにはいちいちダブルクォーテーションで囲まなきゃならんし…。
って、囲めば問題ないか。
 公開しているアーカイブのbatファイルのruby呼び出し部を""で囲んだ。
これで、Program Files以下にインストールしてあってもたぶん大丈夫。
956: 932 05/02/06 18:22:24 ID:MFqjkQuC(6/14)調 AAS
>>954
 うーむ。作業フォルダはちゃんとしていてxdoc2txt.exeもあるのに
うまくいかない、か。
 sakkade2txt.batは作業をまとめてやるので問題を切り分けにくいので、
順を追って試してみよう。

 仮にsf01.pdfを整形するとします。

■STEP1
 sakkade2txtを展開したフォルダにてコマンドプロンプトを実行してください。
(任意のフォルダでコマンドプロンプトを実行するには、「窓の手」を
 インストールして、右クリックメニューの 「任意のフォルダーから
 コマンドプロンプトを可能にする」を有効にすると便利です。)

以下のコマンドを実行してください。
xdoc2txt -f sf01.pdf

 "sf01.txt"はできましたか?
957: 932 05/02/06 18:23:07 ID:MFqjkQuC(7/14)調 AAS
■STEP2
 以下の内容
SET RUBYPATH=C:\usrlocal\ruby-1.8\bin
"%RUBYPATH%ruby" -v
pause
のBATファイル"test0.bat"を作って、実行してください。
(RUBYPATH=〜はインストールしたRubyのruby.exeのあるフォルダに
 書き換えてください。デフォルトは作者の環境のになってます。)

ruby 1.8.2 (以下省略)

と表示されますか?

■STEP3
 以下の内容
SET RUBYPATH=C:\usrlocal\ruby-1.8\bin
"%RUBYPATH%ruby" sakkade2txt.rb < sf01.txt > sf01_.txt
のBATファイル"sf01conv.bat"をを作って、実行してください。
(RUBYPATHに関する注意はSTEP2と同様)

 "sf01_.txt"に整形されたテキストファイルが出力されていますか?
959
(1): 948 05/02/06 18:45:25 ID:p9iT4jVJ(6/8)調 AAS
>>932
できました。

凄い恥ずかしいんですが>>958の言うrubyフォルダをCフォルダの直下に
移動させたらできました。
長文にて指導してもらったのにすみません。

できるようになって気づいたんですが、
文芸賞別作品集の「最後の脚本」をテキスト化させてみたんですが
なぜかPDFにて全49枚中41枚目までしかテキストにできません。
私だけでしょうか?
961: 932 05/02/06 19:00:57 ID:MFqjkQuC(8/14)調 AAS
>>958-959
 すまん。配布ファイルのBATのruby呼び出し部を""で囲まなかった俺のミスだな。
 俺の環境だと、そういうのが面倒だからフリーウェアの類はC:\usrlocal以下に
置くので気づかなかった。
963
(1): 932 05/02/06 19:06:02 ID:MFqjkQuC(9/14)調 AAS
>文芸賞別作品集の「最後の脚本」をテキスト化させてみたんですが
>なぜかPDFにて全49枚中41枚目までしかテキストにできません。

 うちでは、最終ページの
>『最後の脚本』
> ナチ著
> sakka.org
ってところまでちゃんと変換されています。

 ただ、実際に変換したPDFはごく一部なので、うまく変換できない
ファイルがある可能性は大です。
965: 932 05/02/06 19:14:46 ID:MFqjkQuC(10/14)調 AAS
>>962
>ウィングス小説大賞の「LADY BE GOOD」が
>PDF65ページ中55ページまでしかテキスト化されませんでした。

 xdoc2txtが出力するデータが56ページ以降無し。

>また朝日新人文学賞の「The Closed Tower」は
>変換前にエラー終了になりました。

 xdoc2txtがエラーを吐いて終了。

…というわけで、sakkade2txt側では対処できません。

 Adobe Readerで連続表示にして「全てを選択」「コピー」でテキストを
切り取って、テキストエディタに貼り付けて保存。その後何らかのフィルタに
かける。という手がありますが、当然整形スクリプトは新たに書き起こす
必要があります。
966: 932 05/02/06 19:20:45 ID:MFqjkQuC(11/14)調 AAS
>>964
 確かめました。たしかに、ありませんね。
 xdoc2txtの出力を確認したところ、途中で出力がとぎれていました。
元々「空の光に想いを馳せて」を読むためにsakkade2txt.rbを作ったのだけど、
これもダメだ。とほほ…。orz

 xdoc2txtの使用はあきらめて、Adobe Readerから全てを選択・コピーした
文章を整形するスクリプトを作ってみます。
967
(1): 932 05/02/06 19:49:31 ID:MFqjkQuC(12/14)調 AAS
 作ってみた。まだまとめてないけど、とりあえず公開。
外部リンク[sjis]:baku.zive.net
ダウンしたファイルをw.rbとでもリネームして(しなくてもいいけど)
ruby w.rb < 変換元 > 変換先
で変化できる。コマンドラインのさわり方とかリダイレクトとかがわからない人は
ちょっと待ってくれ。
 小説は終わりを先に読むとネタバレするので、うかつにチェックできん…。
読むの速い人チェックキボンヌ。

 ところで、もう残り40を切っているので次スレが必要ですな。
 俺はケータイに関してはあまり詳しくないので、誰か詳しい人テンプレ
作ってくれんかのぅ。
970: 932 05/02/06 23:18:21 ID:MFqjkQuC(13/14)調 AAS
 Adobe Readerから「全てを選択」「コピー」したデータを整形出力する
新バージョンできました。
外部リンク:baku.zive.net

いちおう、旧バージョンも残してあります。使い道無いですけど。
外部リンク:baku.zive.net
971: 932 05/02/06 23:37:55 ID:MFqjkQuC(14/14)調 AAS
 整形精度に改善の余地ありです。
 今のプログラムは段落の判断を行末に"。"があるかどうかだけで
行っているので、

プロローグ

と書いてあったら、文が次の行に続くと判断してそこで改行しません。

 行の文字数を判断の助けにすればもっとマシになるはずですので、
もうちょっといじってみます。
972
(1): 932 05/02/07 00:21:08 ID:oUyxdTUJ(1/2)調 AAS
改良完了。
差し替えました。
973
(1): 05/02/07 18:50:49 ID:6+b+0yao(1)調 AAS
>>972
乙です。

>>932のソフトを使ってテキストにきれいにできるサイト
ごはん以外に知ってる方いましたら教えてください。
何個か検索してPDFで小説やってるとこ見たけど無理でした。
974: 932 05/02/07 20:39:20 ID:oUyxdTUJ(2/2)調 AAS
 「空の光に想いを馳せて」を読了。
 括弧の後の改行の処理が変な部分があったので改良。
新バージョンをアップしました。新バージョンでエンバグしている
可能性も高いので、旧バージョンも残してあります。

>>973
 xdoc2txtを使う旧版は既に忘却の彼方だけど、Adobe Readerから
クリップボード経由でデータを受け取って変換する新バージョンの
sakkade2txt.rbは、ファイル名にするために題名を取得する部分が
「作家でごはん!」の参考作品の書式専用に作ってあるため、
他の形式では題名を取得できないため正常動作しません。

 既に整形された文章をつなぎ合わせる部分はおそらく汎用で
使えるはずです。題名の自動取得をしない汎用バージョンが必要かな。

…というわけで、汎用バージョンを作る励みになりそうな面白い小説の
紹介キボンヌ。
前次1-
スレ情報 赤レス抽出 画像レス抽出 歴の未読スレ

ぬこの手 ぬこTOP 0.024s