喫煙者の１日を観察する (統計解析版)

1週間前くらいに喫煙者がどれだけ損しているかをシュミレーションして解析しましたが、データ処理に関してもっとスマートな方法があったので紹介しようと思います。

前回はRubyでモデルを作ってシュミレーションを行いましたが、今回は「R」を用いて簡単に解析してみます。

そのために、今回用いる分布のモデルを紹介します。
喫煙のように1日あたりの喫煙率がわかっており、これから解析する期間がわかっている場合は「ポアソン分布」を用いると簡単に解析できます。

専門的な数式はこちらを参考にしてください
ポアソン分布 - Wikipedia

ポアソン分布は λ, t, kを変数として確率変数をモデリングするのですが、今回の場合はλ = 20本/日, t= 365日　として一番尤もらしいkの値、つまり1年間タバコを吸う場合に一番可能性が高い消費量を計算したいと思います。

さて、「R」でポアソン分布を扱う場合はdpois関数を使います。
ただし、この分布はλとtを掛け算した値をλとして引数にします。なので、今回の場合はλ = 20本/日 × 365日 = 7300本となります。

plot(dpois(7000:7600,7300))

表示される分布データがこちらです。
f:id:u651601f:20131115134944p:plain

ポアソン分布の性質からすると当たり前なのですが、分布の平均値はλになるので年間の平均喫煙本数は7300本になります。

ここで分散を考慮すると、
分散σ = λ = 7300本^2。

ということで、ポアソン分布が正規分布に近似できることを念頭に、68%の確率に相当する1次分散の範囲を計算すると、
(範囲) = μ ± √σ = 7300 ± √7300 = 7300 ± 85.44.... = [7215, 7385]本

したがって、年間少なくても7215本くらいタバコを吸う確率が高いという分析結果が出ました。
これは、前回のシミュレーションと大分違う値となりました。

なぜでしょうか？？

私の見解では、前回のシュミレーションでは喫煙時間を考慮して解析したのですが、今回の統計解析では「一瞬でタバコを吸う」ことを前提に解析しています。したがって、シミュレーション結果よりも解析結果が大幅に外れてしまったんだと思います。

今回のように、データ点が「一点」でない（一瞬ではなく数分で１つのデータ）場合にポアソン分布のようなモデルを安易に適応するといけないことがわかりました。

今回の統計解析は利便性があるかは疑問ですが、シミュレーション解析か統計解析のどちらでデータを解析するか迷った場合は、今回の教訓を参考にしてみてもいいかと思います。