データと情報

データと情報はあまり区別されないことも多いのですが、ここでは区別して考えることにします。

JIS X 0001「情報処理用語―基本用語」（1994年改正）では、情報（information）を「事実，事象，事物，過程，着想などの対象物に関して知り得たことであって，概念を含み，一定の文脈中で特定の意味をもつもの。」と定義しています。データ（data）については、「情報の表現であって，伝達，解釈又は処理に適するように形式化され，再度情報として解釈できるもの。」と定義され、備考として「データに対する処理は，人間が行ってもよいし，自動的手段で行ってもよい。」とあります。

この関係は上記規格では図でも示されていますが、要は、「情報」は「対象物に関して知り得たことがら」であり、それを（コンピュータで処理できるような記号列で）表現したものが「データ」です。逆に、「データ」を解釈すると「情報」になります。

これらに関連して、JIS X 0001には「情報処理」（「情報に対して行われる，データ処理を含む操作の体系的実施」）、「データ処理」（「データに対して行われる操作の体系的実施」）も定義されています。

「知識」は、情報の積分（累積）と説明されることもあれば、情報より1段階レベルの高いものと説明されることもあります。さらに上の階層に「智慧」（wisdom）を置いて、Data → Information → Knowledge → Wisdom という4階層にしたものを、DIKW pyramid と呼ぶそうです。

データと情報の違いは、見るレイヤー（層）の違いともいえます。例えば「今日の気温は30℃だ」がデータで「今日は暑い」が情報だ、というような話ではありません。どちらも文字列として見ればデータですし、どちらのデータにも情報が含まれています。「　　　　　　　　　　」（スペースを並べただけの文字列）もデータですが、含まれている情報は少なそうです（文脈によっては「あきれて何も言えない」のような情報が含まれているのかもしれませんが、文脈なしではわかりません）。

情報をもうちょっと量的に考えてみましょう。

例えばビットが100個並んでいれば、100ビットのデータ。

でも、そこに100ビット分の情報が入っているとは限りません。例えば初期化したばかりで全部に 0 が入っていることがわかっているなら、情報量はゼロ。全部に 1 が入っていることがわかっている場合も、情報量はゼロ。

オオカミが来ても来なくても「オオカミが来た！」としか言わない羊飼いは、情報量ゼロ。つねに 0 であるビットや、つねに 1 であるビットは、何ビットあっても情報量はゼロ。

このように考えていくと、ビット列が全部 0 とか全部 1 でなく、どのビットも 1/2 の確率で 0、1/2 の確率で 1 のとき、一番たくさん情報を含みうると言えそうです。

このことに注目して作られたのが、Shannon（シャノン）の情報理論です。これによると、確率 $p$ で 0、確率 $1 - p$ で 1 になる独立なビット列のデータ1ビットあたりの情報量は $-(p \log_2 p + (1-p) \log_2 (1-p))$ ビットです。$p = 1/2$ で情報量は 0.5 ビットになり、$p \to 0$ や $p \to 1$ の極限で情報量は 0 ビットになります。

情報理論は大学で勉強することで、今はわからなくてもかまいませんが、1ビットのデータであっても、その情報量は一般に1ビット以下だということは知っておいて損はしないでしょう。ビットはデータの最小単位かもしれませんが、0.1ビットの情報とかもあるので、ビットは情報の最小単位ではありません。

データ圧縮という技術があります。データ圧縮には、完全に元に戻せる可逆圧縮と、完全には元に戻せない非可逆圧縮（不可逆圧縮）とがありますが、可逆圧縮であれば、100ビットのデータを50ビットに縮めて送信し、受信者側で元の100ビットを完全に復元するといったことが可能です。これは、もとの100ビットのデータに50ビット以下の情報しか入っていなかったからできることです。可逆圧縮なら、圧縮してデータを減らしても、情報量は変わりません。