データと情報

データと情報はあまり区別されないことも多いのですが、ここでは区別して考えることにします。


JIS X 0001「情報処理用語―基本用語」(1994年改正)では、情報(information)を「事実,事象,事物,過程,着想などの対象物に関して知り得たことであって,概念を含み,一定の文脈中で特定の意味をもつもの。」と定義しています。データ(data)については、「情報の表現であって,伝達,解釈又は処理に適するように形式化され,再度情報として解釈できるもの。」と定義され、備考として「データに対する処理は,人間が行ってもよいし,自動的手段で行ってもよい。」とあります。

この関係は上記規格では図でも示されていますが、要は、「情報」は「対象物に関して知り得たことがら」であり、それを(コンピュータで処理できるような記号列で)表現したものが「データ」です。逆に、「データ」を解釈すると「情報」になります。

これらに関連して、JIS X 0001には「情報処理」(「情報に対して行われる,データ処理を含む操作の体系的実施」)、「データ処理」(「データに対して行われる操作の体系的実施」)も定義されています。


「知識」は、情報の積分(累積)と説明されることもあれば、情報より1段階レベルの高いものと説明されることもあります。さらに上の階層に「智慧」(wisdom)を置いて、Data → Information → Knowledge → Wisdom という4階層にしたものを、DIKW pyramid と呼ぶそうです。


データと情報の違いは、見るレイヤー(層)の違いともいえます。例えば「今日の気温は30℃だ」がデータで「今日は暑い」が情報だ、というような話ではありません。どちらも文字列として見ればデータですし、どちらのデータにも情報が含まれています。「          」(スペースを並べただけの文字列)もデータですが、含まれている情報は少なそうです(文脈によっては「あきれて何も言えない」のような情報が含まれているのかもしれませんが、文脈なしではわかりません)。


情報をもうちょっと量的に考えてみましょう。

例えばビットが100個並んでいれば、100ビットのデータ。

でも、そこに100ビット分の情報が入っているとは限りません。例えば初期化したばかりで全部に 0 が入っていることがわかっているなら、情報量はゼロ。全部に 1 が入っていることがわかっている場合も、情報量はゼロ。

オオカミが来ても来なくても「オオカミが来た!」としか言わない羊飼いは、情報量ゼロ。つねに 0 であるビットや、つねに 1 であるビットは、何ビットあっても情報量はゼロ。

このように考えていくと、ビット列が全部 0 とか全部 1 でなく、どのビットも 1/2 の確率で 0、1/2 の確率で 1 のとき、一番たくさん情報を含みうると言えそうです。

このことに注目して作られたのが、Shannon(シャノン)の情報理論です。これによると、確率 $p$ で 0、確率 $1 - p$ で 1 になる独立なビット列のデータ1ビットあたりの情報量は $-(p \log_2 p + (1-p) \log_2 (1-p))$ ビットです。$p = 1/2$ で情報量は 0.5 ビットになり、$p \to 0$ や $p \to 1$ の極限で情報量は 0 ビットになります。

情報理論は大学で勉強することで、今はわからなくてもかまいませんが、1ビットのデータであっても、その情報量は一般に1ビット以下だということは知っておいて損はしないでしょう。ビットはデータの最小単位かもしれませんが、0.1ビットの情報とかもあるので、ビットは情報の最小単位ではありません。

データ圧縮という技術があります。データ圧縮には、完全に元に戻せる可逆圧縮と、完全には元に戻せない非可逆圧縮(不可逆圧縮)とがありますが、可逆圧縮であれば、100ビットのデータを50ビットに縮めて送信し、受信者側で元の100ビットを完全に復元するといったことが可能です。これは、もとの100ビットのデータに50ビット以下の情報しか入っていなかったからできることです。可逆圧縮なら、圧縮してデータを減らしても、情報量は変わりません。