11月の後半に入り、ようやく寒いと感じるような日がやってくるようになって来ました。
プログラムを作ったり、データ処理の仕事をしている関係で、様々な種類のデータを扱います。最近、人口推移なども絡めて、様々な集計データを元にした予測を行う仕事をしました。これらの仕事は科学技術的な処理と比べてかなり違っているということを感じました。
科学的なデータ処理では、各計測値が「正規分布を仮定して」ということで処理できることが多いです。しかし、人や組織を相手に集計したデータを扱ったときに、落ち着いてデータの質を考えてみると、かなり異なった性質が見えてきました。
たとえば、アンケートなどを使って集計する場合を考えてみます。回収率が良い場合も悪い場合もあります。仮に100%で回収できた年があって、次の年は80%だとします。その次の年は90%としましょう。各集計値をつかって、なめらかに線を引くとしたら、真の曲線は、100%回収のときの値付近を通るはずです。決して90%や80%のときの集計値との間の平均的なところを通るわけではないことは明らかです。その意味で集計値は正規分布に従っているとはいえません。
そういったことを考えながらデータをもっともよく表すと思う様な分布関数を与えてマルコフチェーン・モンテカルロ法などでシミュレーションしながら、晩秋の夜長を楽しんでいます。