[過去ログ] 【保存・記録】ウェブアーカイブ総合 Page.01 (1002レス)
1-

このスレッドは過去ログ倉庫に格納されています。
次スレ検索 歴削→次スレ 栞削→次スレ 過去ログメニュー
436
(1): 2020/09/11(金)17:53 ID:vIEy03BU0(1/2) AAS
>>434
いや、そういう意味ではなくArchiveTeamの動きないってことはインターネットアーカイブに保存できてないんじゃないかってこと
もしインターネットアーカイブに現時点で保存できなくて、ArchiveTeamに動きなければ>>432がローカルで保存できてない限り9月30日を迎えたらそれも無駄になる
437
(1): 2020/09/11(金)18:38 ID:FY5rw0Vj0(3/3) AAS
>>436
なるほどな、確かにArchiveTeamに動きがなかったら保存されないね

ArchiveTeamが今どういう状況なのかがよく分からないんだけど、本当にNAVERまとめは一切手付かずなのかな?
438
(1): 2020/09/11(金)19:41 ID:vIEy03BU0(2/2) AAS
>>437
いろいろ保存してるけど本当に2ページ以降はクロールされてないよ
クローラーの仕様でGoogle検索に出る1ページだけは保存されるけど
だから人力で保存されてる記事はあんまりないね
439
(2): 2020/09/12(土)09:44 ID:+xgSs3Ql0(1) AAS
>>438
もう自分でクローラソフト動かしてローカルに保存した方が安心じゃね?
ネットのデータなんて今じゃいつ消えるか分からない
もうバックアップのバックアップ(調子悪くてバックアップ後に取り外したHDDに入れっぱなしのデータ等)くらいのオマケ

アーカイブサイトに保存して安心してたら見られなくなってて、
txtでちょっとメモした断片的情報しか手元に残ってなくて絶望したわ
440: 2020/09/12(土)12:00 ID:G5q1lmCg0(1/3) AAS
>>439
確かにそれもそうだし愛読書のごとく読むようなウェブページはpdf化してるけどさ
やはりローカル保存じゃ限界がある、数万記事とか保存しようものならHDD持たないし
それにアーカイブに保存する理由はみんなが見れるからね、知恵袋や古い2chの過去ログ見ててそこのリンクがリンク切れになっても大丈夫なようにある
インターネットアーカイブが消えるときってやっぱり削除要請に応じてるからなのかな
今のところ自分で保存した記事で消えた経験はないが、削除要請以外の自動削除はないと信じたい
441: 2020/09/12(土)12:06 ID:G5q1lmCg0(2/3) AAS
ちなみにArchivetodayや他の魚拓サイトは個人経営らしいから経営者が死んだらサーバー更新できず見られなくなるから、そこに大事なものがあればローカル保存したほうがいい、数十年後に見られなくなってる可能性あるし
やはり数百年後の人類に情報を残すなら法人経営のインターネットアーカイブ
442
(1): 2020/09/12(土)14:19 ID:smUg5j0l0(1/2) AAS
>>439
そうなんだよなあ
前にインターネットアーカイブで閲覧してた削除済みのサイトが
「This URL has been excluded from the Wayback Machine」で
見られなくなってしまってローカルに保存していなくて今も後悔してるわ
前は見られていた分ショックがでかい

こういうのってドメイン再取得した人が解除申請出すしかまた見られる
方法ないのかね?
これって「完全に削除」されたわけじゃなくて単純に「除外」された状態らしいから
443
(2): 2020/09/12(土)19:09 ID:G5q1lmCg0(3/3) AAS
>>442
除外したってことはやっぱりサーバーの容量不足とかじゃなくて要請に応えただけか
サービス終了とかじゃなくてそのページがあると都合が悪いからって意図的に消してるのはローカル保存しかないと思うよ
俺は何回も読むサイトは1ページだけならpdf化してる
さすがに保存対象のURLが何個もあるサイトを全部やるのは面倒だけど
ドメイン再取得していけるかはわからんけど管理者であったことを証明しないとさすがに難しいんじゃないか?でも今の管理者ではダメとも限らないしなー
444
(1): 2020/09/12(土)19:14 ID:GdLneOCP0(1) AAS
>>443
クローラソフトで.mhtやindex.html等で階層いくつ潜るか設定してクロールすればいいじゃん
445: 2020/09/12(土)19:35 ID:smUg5j0l0(2/2) AAS
>>443
>>444
微妙なラインだよなー
ぶっちゃけるとそのサイトはジオシティーズドメインのページで、ジオシティーズの
URLは普通にアーカイブ何万も保存されてて見られるんだけど、そのドメインのサイトは
除外されてるんだよな
自分はそもそもの管理者じゃなくてそのページのファンで、もしまた見られるなら
自分が読んで楽しみたいだけなんだけど、やっぱ厳しいかもしれんな
446
(2): 2020/09/14(月)03:08 ID:W68LNMti0(1) AAS
ArchiveTeamがNAVERまとめのアーカイブ作業に取り組み始めてくれてたみたい
進捗はわからないけど、これでひとまず安心かな
漏れもあるだろうから重要なページは各自で保存する必要があるけどね

>>435
pythonでスクリプト組んで収集した
ArchiveTeamはIRCを使って活動してる
サイトの#から始まるリンクをクリックすれば各プロジェクトに対応したチャットルームに行けるよ
コマンド入力でクローラ操作してる人がいるArchiveBotの部屋が活発なイメージ
447: 435 2020/09/14(月)04:11 ID:Np2NU3M80(1/4) AAS
>>446
なるほど、どうもありがとう
ArchiveTeamが動いてくれたなら最悪の事態は避けられるはずだな...
もちろん>>432(446)の収集したURLあってこその事だから自分も見習わないといけないが
448
(1): 446 2020/09/14(月)11:29 ID:sR0ATY0Y0(1) AAS
NAVERまとめデータ共有
csvデータ(URL, ページ数, タイトル)記事数:1472709, 更新日昇順, 192 MB
外部リンク[csv]:web.archive.org

※収集後に更新されたことでタイトル、ページ数が異なったり削除されていたりする可能性あり
トピック一覧ページから収集したからトピックが設定されてない記事は1つも収集できてない
449: 2020/09/14(月)15:27 ID:Np2NU3M80(2/4) AAS
>>448
503エラーのページがアーカイブされているんだが
450
(1): 2020/09/14(月)15:30 ID:fWxNFkB80(1) AAS
ごめんなさい。恥ずかしいのですがarchiveteamって何ですか?
451: 2020/09/14(月)15:32 ID:Np2NU3M80(3/4) AAS
Wayback Machineが一時的に落ちてただけだった
何回かリロードしたらちゃんとダウンロード出来たわ、すまん
452: 2020/09/14(月)15:36 ID:Np2NU3M80(4/4) AAS
>>450
ウェブアーカイブを組織的にやってる(おそらく非営利の)団体
ArchiveTeamが保存したコンテンツはInternet Archiveで公開される仕組みになってる
正直に言うと自分もArchiveTeamの公式サイトを読んでる途中だから、具体的な活動の様子とかはちょっとわからない
外部リンク:ja.wikipedia.org
外部リンク:www.archiveteam.org
453: 2020/09/17(木)17:02 ID:/9nSrgLL0(1) AAS
【ネット】1000万件以上の研究論文がオンライン上から消失することを防ぐインターネットアーカイブの取り組みとは?  [すらいむ★]
2chスレ:scienceplus
454
(1): 2020/09/24(木)21:11 ID:kg/LREFg0(1) AAS
Braveの機能を使って少額寄付した
455: 2020/09/25(金)12:26 ID:Cm7cjbfH0(1) AAS
>>454
Braveいいよね特にスマホ
ポイントサイトで乞食活動やるよか割もいいし
1-
あと 547 レスあります
スレ情報 赤レス抽出 画像レス抽出 歴の未読スレ AAサムネイル

ぬこの手 ぬこTOP 0.010s