データは数字の前提が大事という話

厚生労働省が公表する毎月勤労統計をうまいこと省略していたことが発覚しました。
全数調査していたはずのものが、調査サンプルを1/3に間引いていたということです。
そして、「何かおかしい」と感づいたのも、総務省と統計委員会の「統計のプロ」でした。
さすがですね。多分、プロが気が付かなかったら、おそらくバレなかっただろうと思います。

数字の意味と前提がいかに大事かという話です。

全数調査の難しさ

厚労省の肩を持つわけではないけど、全数調査は難しく、時間もお金もかかります。
アンケート調査をやったことがある方なら想像がつくと思います。

私も何度かアンケート集計しましたが、手書きデータの入力は大変です。字が汚くて読めない字が多い。
現場の職員の方が「毎年、似たような数字なんだから、間引いても大差ないよ!」という気分になるもの理解できなくもないです。
まぁあれは意図的だとは思いますが。

データの扱いとしては、厚労省はそこからが良くない。
(法的にイケナイことはいろいろありますが、ここではデータの話だけにします)

間引いたら間引いたで、「間引き調査しました」と訂正すべきでした。
間引いた数字だって、それは意味があったし、どのような前提でその数字が出てきたかということがわかっていれば、その数字をどう利用するかという時に利用の仕方が違っていました。「使えない数字」という判断もあったかもしれません。しかしその判断は、数字を使う側ができたのです。

でも、厚労省は「間引いた数字」の意味を訂正としなかったばかりか、「全数調査」風に補正してしまったわけです。

全数調査という大変な仕事をやってくれていると周りが信頼しきっていただけに、これで、厚労省への信頼が一気に崩壊してしまいました。

データの前提条件を確認すべき

数字が意味を持つのは、その前提条件が判っている時だけだと思います。

企業でも同じです。

アンケートひとつとっても、どのような状態でアンケートを取得したのか、アンケートのインセンティブがあったのかなかったのかだけで数字は大きく変化します。

どういう前提でその数字が出てきたのか。その前提条件がわからなければ、数字はただの数字であまり意味がない。都合よく使われてしまう危険性さえあります。

ホームページの数字も同じです。どのような状況でホームページにアクセスしているのか、スマホなのか社内のPCからなのかなどで、ウェブ解析示される数字の意味は変わってきます。

Googleアナリティクスの素晴らしさ

別にGoogle社の回し者ではありませんが、Googleアナリティクスは凄いツールだと思います。

凄いポイントはいろいろありますが、先に述べたデータ取得の前提条件や言葉の定義が(かつグーグルが開示してよい範囲で)すべて公開されていたからです。

つまり、Googleがこの数字はこういう定義で、こういう意味ですという解説ことを本当に事細かくヘルプで説明しています。

細かすぎて、読みにくいことは読みにくいですが、少なくとも言葉の定義と数字の意味が大事だということをGoogleは判っていて公開している、この態度は信頼できます。

そしてホームページを訪れた行動はすべて、基本は全数データです。

ホームページ上でのお客さまの行動というのは、あまり、嘘とかゴマカシが入りにくい数字です。

外部からの悪意のあるアタックも含めて、全数データが無料で取得できるところはお得。ここまで膨大なデータを無料サービスで使える時代になったのですから、マーケティングを行う人間にとっては大変有り難い時代なのです。

上手にこのツールを活用しましょう。

最後に

厚労省の全数調査の話に戻りますが、今でもオンラインで提出する方法と郵送の2つが混在しているようです。

個人的な意見ですが、生産性向上がここまで言われているのだから、いっそ、すべてオンライン回答に統一すればかなり楽になのではと思います。

パソコン入力できない中小企業の社長がいるかもしれない?思われるでしょうが、実際にそのような会社は、少ないのではないかと思います。

本当にパソコン苦手な方や、超多忙は方には信頼できる秘書やアシスタントがいるでしょうし、その方々は大抵デジタルツールは使いこなせます。

そして、5人以下で会社まわしているような中小企業は、社長がデジタルツールを使わないと、そもそも会社がまわらないので、以外に社長が率先してPCやスマホを使っています。社長自らブログ書いておられるところも多いくらいです。

お役所も、最初から「無理だな」と諦めるのではなく、「とりあえず挑戦してみる」という姿勢のほうが大事なような気がしてなりません。