WikipediaのDeflateの項目が荒れている

ある依頼がきっかけでWikipediaの日本語の Deflate の項目を見て,びっくりした。冒頭の「Deflate(デフレート)はP. Deutsch氏とAladdin Enterprisesによって開発された」からして出鱈目である。正しくは英語版 DEFLATE にあるようにPhil Katz(のところの技術者)が(日本での成果を参考にして)考えたものである。Ghostscriptで有名なL. Peter DeutschはDeflateの仕様をまとめたRFC1951の著者である。

「LZHアルゴリズム(LZSSのポインタのみをハフマンで圧縮するもので、Brentが考案した)とほぼ同じアルゴリズムを使う」云々は,参考文献が挙げられていないが多分 R. P. Brent (1986) A linear algorithm for data compression のSLHアルゴリズムのことだろうが,SLHは「LZSSのポインタのみをハフマンで圧縮する」のではなく,ポインタも文字も混ぜて9ビットごとに区切ってHuffman符号化する。この論文はLHA開発中にROM男さんに送っていただいたものを読んでPC-VANに要約をアップロードしたのでよく覚えている。

Gzipが「シャノン符号」を使うというのも出鱈目だし,最後の「現在はこのDeflateの2倍以上効率が良いアルゴリズムが生まれ始めている」というのも,効率って何のことかよくわからない。

どうしよう。この週末で全部書き直そうか。どなたか開発者じゃない中立な立場の方にやっていただければいいのだが。

私は奥村さんが編集されるのが言いと思います

『開発されてる、その渦中にいた人が言うなら間違いはないだろう』と
みんなが思ってくれればそれでいいんじゃありませんか?

データ圧縮の項目は

「データ圧縮」の項目はちゃんとバランスがとれて書かれているのですから,そのうち直るんだろうとは思うのですが,明日まで考えてみます(明日になったら直っていたりして)。

ところがWikipediaとい

ところがWikipediaというのは奇妙なところで、当事者が書くと客観性や中立性がどうのこうのという変なイチャモンがつけられることがあります。

---
(Wikipedia?) 主宰の Jimmy wales 自らがこの件に関してはコメントしていることがありました。

「記述が当事者から見て正しくなかったら、編集しないで、
 外部にその反論を書いて、外部リンクを貼ってくれ」
http://ameblo.jp/nippau/entry-10058976707.html
---

奥村先生は現在そのような対応をされているので、あとはこれを読んだ第三者に任せるというのもありかと思います。もちろん、奥村先生が主観的な立場で記事を書かれることはないと確信していますが(^^;)

LZH

The Advanced TeXbook の著者でもある David Salomon の Data Compression: The Complete Reference を久しぶりに開いてみたら,LZHというアルゴリズムについてちょこっと載っていました。Bernd Herdという人が考えたもので,LZ77のオフセット部分を可変長符号化する(“small offsets are assigned shorter codes”)というもののようです。Wikipediaを書いた人は,この人と,アルゴリズムの大御所Brentをごっちゃにしたのかもしれません。LZHについてはドイツ語のWikibookの Datenkompression: Verlustfreie Verfahren: Wörterbuchbasierte Verfahren にも名前が載っています。Googleグループのcomp.compressionでBernd Herdを検索しても見つかりません。

こういう小さいことでも年月日・投稿場所がわかれば特許で問題となったときに役立つのですが,網羅的なSalomonの本にも何も書いてありません。

LZ77

日本語のLZ77も調べてみました。「もともと命名の慣例として考案者の順(Ziv・Lempel)としてZL法としていたが発表者のミスによりLZと発表されたため一般的にLZが使われている」の「発表者のミス」とは? 何かWikipediaが都市伝説を拡大しているように思えてきました。

ZivとLempelは有名な1977年や1978年の論文ではZiv-Lempelの順ですがLempel-Zivの順の論文もあり,だれか(調べればわかることですが)がLZと呼んでそれが定着したのだと思います。

この項目は簡単に修正できるので,直しておきます。

ここ(4ページ3行目)

ここ(4ページ3行目)
http://arxiv.org/ftp/cond-mat/papers/0203/0203409.pdf
には「ZL法はLZ法の簡易版」と書かれていますが,これも正しいかどうか私には判別できません...。[13]のIEEE Trans.を見れば分かるのかも,と思いつつ,すぐには見れませんので。

フィル・カッツ

フィル・カッツはフィル・キャッツのほうがいいのではないかと思いましたが,とりあえずキャッツという発音も書き込んでおきました。

ちなみに,英語版のPhil Katzの一番下にBBSのビデオがリンクされていました。これはアル中になったPhil Katzが2000年に37歳で死んだ後でSEA社側を持ち上げるために作られたもののようです。SEA対PKWAREの話は歴史としてたいへんおもしろいのでどなたかぜひどこかに詳しく書いてください。

Re: ここ(4ページ3行目)

suzukiさんありがとうございます。この[13]は私も見たことがないか忘れているかのどちらかです。

最低限の修正完了

最低限の修正をしておきましたので,あとはどなたか加筆してください。

気がついたのですが,すでに一部が「以下の部分は全面的に内容がおかしいと思います」というコメント付きでコメントアウトされていました。

失敗失敗

いつのまにかログアウトしてしまっていて,書き込みがIPアドレスになってしまいました。^^;

ついでにZIP (ファイルフォーマット) の項目も見てみました。「正式名称 Phil Katz Zip」などといった特に気になる記述だけ修正しておきました。

SEA vs. PKWARE

http://www.bbsdocumentary.com/library/CONTROVERSY/LAWSUITS/SEA/
に詳しく書かれているようです。
これのウラを取ろうとすると...。不可能かも。

Re: SEA vs. PKWARE

ありがとうございます。これは大量すぎて読めません。^^;

ARC→PKARCだけでなく,compress→ARCのソースコード混入はなかったのでしょうか。

Re: SEA vs. PKWARE

私も
http://www.bbsdocumentary.com/library/CONTROVERSY/LAWSUITS/SEA/sea.txt
しか読めていなかったりします(苦笑)。
「混入」については,ここではARC→PKARCの盗用はなかった,両者が同じパブリックドメインのソースコードをベースにしたにすぎない,KatzがSEAのコードを見る機会はなかった,とされています。

gzip

日本のgzipの項目に「シャノン符号を用い」ると書いてあったのでハフマン符号に直しました。

Re: Re: SEA vs. PKWARE

「同じパブリックドメインのソースコード」って,UNIXのcompressのことなんでしょうか。

Re: SEA vs. PKWARE

sea.txt(75行目から始まる段落)に書かれているのは``the squeeze code and the crunch code''とのことですので,UNIX compressではないですね。
ひとつ訂正。すみません。「KatzがSEAのコードを見る機会はなかった」→「KatzがSEAのコードを盗用したと結論づけることのできた人はいない」。
ARCのソースコードって公開されてたんですね。例えば
http://www.math.utah.edu/~beebe/archive-tools.html
に。

Re: SEA vs. PKWARE

ありがとうございます。いまソースを見てみました。
squeeze(arcsq.c)のほうはHuffman(Dick Greenlawによるもの)で,問題のcrunch(arclzw.c)のほうはどうもやはりUNIX compressのようですね。コメントにそう書いてありますし。

お疲れ様です

お手を煩わせてしまい申し訳ありません。他の人間や Wikipedia の管理者が
奥村さんの編集を、名無しさんが書かれた(当事者が書くと中立性に疑問を
持たれる)ように判断するとまずいな、と冷や汗が出ています。

Re: お疲れ様です

いえ,明らかにまずいところを直しただけで,たいして編集していません。この後はどなたかが根本的に書き直してくださることを期待しています。

もしDeflate以外でもまだおかしいところがありましたらお教えください。

> Wikipedia

> Wikipedia の管理者が(中略)判断するとまずいな

細かい点ですが、ウィキペディアの管理者 (sysop) はそのような立場の人間ではありません。sysop は確かに削除や保護といった管理機能を使用できますが、使用するかどうかの判断は(一部裁量が認められるものの) sysop を含めた一般利用者間の合議によって成されます。この際、管理者の意見は一般利用者のそれと区別されません。

むしろ、仕切りたがりの一般利用者がそういう議論の場所に入り浸るということが起きていて、どうやら記事を書く知識や努力をしないけれども、ウィキペディアに参加している実感が欲しいという(精神的)未成年が狭い了見で話をかき回しているということが、いくつかの場所ではあるようです。こういう手合いにあってしまうと、理屈では絶対納得しようとしてくれなくて、どうしようもないんですよね。

せっかく識者の方々が手を尽くしてくださっている今回の件が、そういう人に見つからなければよいなあ、と私も願っています。

コメントの表示オプション

お好みの表示方法を選択し、「設定の保存」をクリックすると、表示方法を変更することができます。