データ圧縮に賞金

One Laptop per Child(いわゆる$100ラップトップ)がWikipediaのサブセットを内蔵するという話があるが,Wikipediaの100MBを18MB以下に圧縮すると賞金が貰えるらしい:50'000€ Prize for Compressing Human Knowledge。Slashdotの議論Compress Wikipedia and Win AI Prizeは今のところ雑談レベル。

そこでこの記事です

そこでこの記事ですよ。
「画期的なデータ圧縮?」
http://oku.edu.mie-u.ac.jp/~okumura/blog/node/836
「Google Videoで(略)35%しか縮まないものを85%も縮めることができるという」
15%<18%ですから。

なるほど。ほかにも

なるほど。ほかにも再帰的に適用すればどんなデータも1バイトになるとか,いろいろありますので,賞金をもらえる人は多そうですね

そういういかがわしいものでなく

:)
その記事にコメントをした時の記憶では、英単語の出現頻度を予めDBとして持っているというのが核にあります。汎用のzipの圧縮率よりは上に行って不思議ではないはずです。

配布物 95MB、 配布zip:33.3MB、 7zipで再圧縮(PPMd):23.6MBでした。

このサンプルに特化

このサンプルに特化した辞書を持つことを禁止するために,このコンテストでは最小の自己解凍型アーカイブを作ることが求められています。現時点での勝者PAQもバージョンによっては英語の辞書を持っているものもありますが,ここで使ったバージョンは辞書なしのものです。たとえ辞書を使っても,例の記事に載っていた辞書2バイト固定ではPAQに勝つのは難しいのではないかと思います

コメントの表示オプション

お好みの表示方法を選択し、「設定の保存」をクリックすると、表示方法を変更することができます。