URI変えるな,ページ消すな

探し物をしていて古いリンクをたどったら 総務省|ご案内ページ -掲載期間が終了しています- というページにリダイレクトされてしまった。総務省サイトの掲載期間は原則3年で,パンフレットなどは最新版以外は消しているという。国の貴重な資料は永久保存でいいと思うのだが,なぜ消すのだろう?

Webの開祖Tim Berners-Leeは1998年に Cool URIs don't change(神崎さんの訳:クールなURIは変わらない)を書いて,URI(URL)が永続すべきことを説いている。もう10年以上も前のページだが,サイト管理者はぜひ読んでほしい。ここに書いてあるように,何十年も永続させるためにはいろいろな工夫が必要だ。例えば拡張子はその時点での技術を反映する。hoge.html は hoge.cgi や hoge.php や hoge.rb になるかもしれない。そのため,W3Cサイトへの正式なリンクは拡張子を使わないことになっている。日本の官公庁が新聞に新しいサービスを紹介するときに,そもそも絶対に不要なはずの index.html を付けた名前をアナウンスすることがよくあるが,これがまずい理由は,URLは短いほうがいいこと以外にもあるのだ。

ドメインの変更も悩ましい問題だ。省庁再編や平成の大合併,地域型JPドメインからlg.jpへの変更問題,特殊法人や独立行政法人の整理などで多発した。私の専門に近いところでこの4月に起きた例:NIMEサイトをご覧の皆様へ(ここにある新サイトのURLも,絶対に不要なはずの index.html をわざわざ付けているのは理解しがたい)。

私事だが,5年前,松阪大学から三重大学に異動して,URLも http://www.matsusaka-u.ac.jp/~okumura/ から http://oku.edu.mie-u.ac.jp/~okumura/ に変わった。その後,松阪大学は三重中京大学に改名したが,来年から学生募集停止が決まった。古いサイトからのリダイレクト(現在はリンクになっている)はそのうちなくなるのだろう。定年後は http://okumuralab.org/ に移動する予定でドメインを確保してあるが,まだ活用できていない。そもそもここに書き溜めても,死んだ後はどうなるんだろうと考えてしまう(まだまだ早すぎる心配だが)。墓みたいに永久保存サーバを作れば売れるのではないか。

日本の大学は退職すればホームページは削除されるのが普通だが,1992年にStanfordを退職されたはずのKnuth先生はまだStanfordに Don Knuth's Home Page を持っておられる。現在Last-Modified:は2009-05-05になっている。Wayback Machineのアーカイブは1997-05-26から始まり,多いときは年に100回以上アーカイブされているが,なぜか2008-01-21で終わっている。

ところで,今GoogleでKnuthと入れて最初に出てくるページのURLの最後は /~knuth/ でなくて /~uno/ となっている。ページの内容は同じだ。Unoってだれだろう? Wayback Machineによれば2002-09-24からこのような状態のようである。Stanfordのwebmasterにメールで聞いてみたので,返事があればここで紹介する。

[2009-08-15追記] UnoはDonのassistantで,同じ場所を共有しているという返事をいただいた。

平成の合併によって

合併した自治体のサイトなどもこれあり…

国立国会図書館のWARPプロジェクトががんばっていますが…
http://warp.ndl.go.jp/

中の人の話によると、理念を理解してもらうのにまず、一苦労、場合によっては、国立国会図書館の関西館内のみでの閲覧という条件付きで許可を受けたところもあるそうです。

> そもそも絶対に不要なはずの index.html

> そもそも絶対に不要なはずの index.html

ファイル自体はあっても良いが、URL に含める必要は無いという事で宜しいでしょうか。アレが無いとディレクトリの中(ファイルリスト)が見えて困るという話は大昔に聞いた事があるのですが。どう困るんだ、というのは脇に措いて下さい。

ただいま自サイト立ち上げの為に色々と調べているのですが、10年前と状況が違い過ぎて困惑しています。

index.html

ファイルはもちろんなければいけませんが,それが index.html であったのが現在は index.php でPHPを利用した動的なページになっていたりといったことはしょっちゅう起こりうることですので,URLには含めるべきではないということです。わかりにくくてすみません。

WARP

ご指摘ありがとうございます。最初に挙げた総務省のページの下のほうに「お探しのページが保存されている場合がありますのでご利用下さい」ということでWARPが紹介されていたのですが,あまり期待していなかったのですが,今見たらけっこう健闘していますね。もっとも,WARPやarchive.orgを探せというのは,消失した機関のサイトに対しては有効ですが,総務省で保管すべき書類を消しておいてWARPにあるかもしれませんというのは Cool URIs don't change の基本に反しますよね。

探していたのが、どんな資料なのか知りませんが、削除した方が

探していたのが、どんな資料なのか知りませんが、削除した方が良いという資料もあるかと思います。
例えば、法律関係。改正されているにも関わらず、Googleで直接ページに飛んできた人が、「ああ、この法律はこうなんだな」と勘違いしてしまって法律を犯してしまったら、目も当てられません。

廃止された法律は

記録から消すのではなく,これは何年に廃止された法律であると断った上で残しておくほうがいいのではないでしょうか。

問題なのは,人権侵害がある文書で,歴史的な意味があるので残しておくほうがいいのかどうか,判断に悩むところです。例えば足利事件の記述がWeb上の警察白書から削除されたそうです(これは正しいことだと思います)。

まったく同意です。 重要情報も、重要でない情報も、国家が責

まったく同意です。
重要情報も、重要でない情報も、国家が責任をもって見えるところに(ウェブサイトに)残しておいてもらわないと困ります。

そもそもサイトリニューアル行為自体が、箱物を取り壊しては再建築することと大差ないわけですから、本当に必要な場合以外には行わないで欲しいです。(税金の無駄遣い…幾らかかっているのかは知りませんが。)

ところで、この記事を思い出しました。

衆議院TVのインターネット中継映像が1年で削除されてしまう件
http://www.h-yamaguchi.net/2006/03/tv1_fc8c.html

これも私がウェブにずっと残しておいて欲しい情報のひとつです。

衆議院TVの映像が1年で削除!

知りませんでした。ほんとにもったいないなぁ。1テラバイト1万円の時代に,何を考えてるんだろう。

ストリーミングなのでダウンロードできない ;_;

一括ダウンロード,効率のよい定期バックアップで書いた話に期せずして帰着するみたいで,国のサイトを片っ端から勝手にアーカイブしてやろうかとも一瞬思ったのですが,衆議院TVについてはYouTube等と違って真性のストリーミングなので,単純にはダウンロードできそうにありません。

mmsストリーミングはmmsclient http://w

mmsストリーミングはmmsclient
http://www.geocities.com/majormms/
で保存できます。

mmsclient mms://wmtvod.shugiintv.go.jp/vod/2009-0721-1000-12b.wmv

といったようにすると保存できるはずです。URLを取得するのがちょっと
めんどうですが、全部アーカイブも可能だと思います。

mmsclient

ありがとうございます!
うまくスクリプトを書けば全部アーカイブもできそうですね。

コメントの表示オプション

お好みの表示方法を選択し、「設定の保存」をクリックすると、表示方法を変更することができます。