[お知らせ]


2013年10月18日金曜日

統計学お勉強日記①~平均値は母集団を代表する値か?~

[はじめに]
臨床医学文献、いわゆるエビデンスを批判的吟味するに当たり、どうしても必要なのが英語と疫学的知識、そして統計学です。僕自身統計学は学部時代もまったく勉強したことがなく、数学などほとんど忘れ去っている状態で、相対リスクやオッズ比、信頼区間や危険率などをかろうじて学びながらEBMの実践を行ってきました。しかしながらやはり統計学を体系的に学ぶことは今後のEBM実践において必須だろうと思いまして、ぼちぼち始めたいと思います。当ブログの趣旨とは異なるかもしれませんが、勉強したことのメモとして整理・活用しながら今後のEBM実践に役立てたいと思います。
とはいえ、全くゼロからのスタートなので、とりあえずは全体像の把握のため、できるだけ難解な数式を避けながらイメージとして統計の世界を捉えていけるよう、まとめたいと思います。間違えあればご指摘ください。なお、この記事で使用したデータは仮想の値で、各統計値はエクセルを用いて算出しています。

[平均と偏差]
とりあえず仮のデータとして、とある患者群の平均余命のデータと以下の通りだとします。
患者
余命
偏差
患者1
18.0
7.8
患者2
15.0
4.8
患者3
15.0
4.8
患者4
14.0
3.8
患者5
13.0
2.8
患者6
11.0
0.8
患者7
10.0
-0.2
患者8
4.0
-6.2
患者9
1.0
-9.2
患者10
1.0
-9.2
余命の平均値、すなわち平均余命は患者1の18年から患者10の1年まですべてを合計して患者数=10人で割れば出てきます。このケースでは10.2年となります。ではこのデータを用いて、おおよそこのような患者群での平均余命は10年そこそこです、と言ってしまってよいのかと言うのが今回のテーマです。ちなみに偏差とはこの平均値からのズレを示しています。例えば患者1で18.0年-10.2年=7.8年となります。この偏差は全て合計すると0になります。平均よりも大きい分と小さい分が打ち消しあうので総和がゼロになると考えれば良いかと思います。したがって偏差の平均値を求めることは不可能です。偏差を2乗した値の平均値、これを分散と言いますが、分散がデータのばらつき度尺度として用いられます。分散が大きいほどデータのばらつきが大きいことを意味しています。分散の平方根を標準偏差といいSD等の記号であらわされます。
[分散と標準偏差]
分散をデータの広がりの尺度として用いるわけですが、どうしてわざわざその後で平方根をとって標準偏差というもの算出する必要があるのでしょうか。例えば長さのデータを扱っているものとして、その単位がm であったとすると、分散は2乗の平均となりますから、単位はm2 ということになります。すなわち分散はデータそのものとは異なった単位をもっており、データや平均の値と比較することは困難です。そこで分散の正の平方根である標準偏差を考えれば、こちらはもとのデータと同じ単位となるので、たとえば平均の周りでデータがどのようにばらついているかを考えることにおいては標準偏差の方が比較しやすいという事になります。データから直接に計算できるのは分散ではありますが、直観的尺度としてわかりやすくするために標準偏差を計算します。

■偏差:各データにおける平均値からのズレ量
■分散:それぞれの偏差の2乗値の平均値
■標準偏差:分散の平方根

 [中央値と最頻値]
集団(患者1~患者10)のデータを代表する値はこのような平均値が代表的な指標ではありますが、そのほかにも指標はあります。代表的なものに
■中央値(メジアン)
■最頻値(モード)
2つが重要だと思います。先ほどのデータから中央値と最頻値を求めますと以下のようになります
患者
余命
偏差
患者1
18.0
7.8
患者2
15.0
4.8
患者3
15.0
4.8
患者4
14.0
3.8
患者5
13.0
2.8
患者6
11.0
0.8
患者7
10.0
-0.2
患者8
4.0
-6.2
患者9
1.0
-9.2
患者10
1.0
-9.2


平均値
10.2
メジアン
12.0
モード
15.0
最小値
1.0
1四分位
5.5
2四分位
12.0
3四分位
14.8
最大値
18.0
中央値、最頻値の前に四分位数につて簡単にまとめます。データを同数に4 等分したときに、全体の1/4, 2/4, 3/4 の位置に相当する値を四分位数(quartile) といい、その3 つの値の小さい方から順に第1 四分位数(first quartile)、第2 四分位数(second quartile)、第3 四分位数(third quartile) といいます。観察研究などで野菜の摂取量と死亡リスク等の関連を調べる際、摂取量の最小四分位と最大4分位を比較するケースがありますが、このようにデータを4等分して、その各集団の最小グループと最大グループを比較していることになります。

2四分位
最小四分位
最大4分位
1四分位
3四分位

この第2四分位にあたるところが中央値でメジアンと呼ばれます。先ほどの患者データで中央値を求めますと12年となります。このケースではデータが10個と偶数なので、真ん中に当たる、13年と11年の平均がメジアンとなります。データが奇数ならばそのまま真ん中の値がメジアンとなります。
平均値が10.2年でしたからメジアンは約2年近くも長くなっていますね。平均値は極端に大きい値や極端に小さい値(こういったデータを外れ値という)に大きく影響を受ける傾向にありますが、メジアンはその影響が小さくなり、より集団のなかの“普通の値”を反映していることがお分かりいただけるでしょう。
最頻値、これはモードと呼ばれますが、最も頻度が多いデータ値という事です。先ほどのデータからいえば余命15年の患者は2名存在し、一番頻度の高いデータとなっています。すなわちモードは15年となります。

[パーセンタイルとヒンジ]
観察研究などでもよく目にするパーセンタイル、基本的には四分位数と同じです。ただ等分するデータが細かくなり100等分です。四分位数との関係では、第1 四分位数が25 パーセンタイル、メジアンが50 パーセンタイル、第3 四分位数が75 パーセンタイルに相当します。
 ヒンジはメジアンを中心に2等分です。下側ヒンジ(lower hinge) はメジアン以下のデータのメジアンを指し、上側ヒンジ(upper hinge) メジアン以上のデータのメジアンを指します。なおデータ数が偶数の場合においてメジアンはデータ点に含まれないので、メジアンよりも小さい(大きい)データを使って下側(上側)ヒンジを求めます。

[普通の年収と平均年収は違うのか?]
以下の表は、仮想集団における年収です。
年収
偏差
年収
偏差
2000万円
1265.0
600万円
-135.0
1800万円
1065.0
530万円
-205.0
1500万円
765.0
510万円
-225.0
1000万円
265.0
505万円
-230.0
910万円
175.0
500万円
-235.0
900万円
165.0
500万円
-235.0
670万円
-65.0
480万円
-255.0
640万円
-95.0
450万円
-285.0
630万円
-105.0
430万円
-305.0
620万円
-115.0
420万円
-315.0
610万円
-125.0
400万円
-335.0
300万円
-435.0
そしてこのデータを代表する値を以下にまとめてみます。
平均年収
735万円
メジアン
600万円
モード
500万円
平均年収は700万円を超えていますが、ほとんどの方は600万円前後だと言えそうです。
ここで外れ値と考えられる2000万円の人、1800万円の人を除いてみましょう。すると…
平均年収
624万円
メジアン
530万円
モード
500万円
平均年収は111万円も下がりましたが、メジアンは70万円の低下、モードに至っては不変です。メジアンは外れ値の影響を受けにくい、すなわち非正規分布が予想されるような集団ではその集団の代表値は平均値よりもメジアンの方がふさわしいのではないかと考えられます。平均値ばかりに目が行くと、実は“普通”の値を見失う可能性もあるかもしれません。次回は確率について勉強してみたいと思います。

0 件のコメント:

コメントを投稿