[お知らせ]


2013年10月30日水曜日

統計学お勉強日記③~臨床試験で用いられる統計解析~

これは僕の勉強整理メモです。間違え等ございましたらご指摘ください。
今までのお勉強日記はこちらです。


[2つの結果の比較をどうするか]
統計的有意性を検定(統計学お勉強日記②を参照)するには様々な手法がありますが、なかなか理解しにくい用語もあり、その全容をつかむのは困難です。また統計的有意差は実は手法により意図的に生み出すことができるという側面も持ち、とりあえずエビデンスを活用するという観点からすれば、統計的手法をどう理解するかではなく、どのような場合にどのような統計手法が適しているかを把握するだけで十分だと個人的には思います。僕が理解できた範囲で、今回は実際の臨床試験に用いられている統計解析手法についてまとめてみます。まずはパラメトリックとノンパラメトリック、から確認です。

パラメトリック(正規分布する):症例数が多くばらつきが少なければ正規分布しやすくなります。この場合パラメトリックStudent t-testPaired t-testが使用可能です。このような検定では比較的有意差がでやすいといわれています。

ノンパラメトリック(正規分布しない):症例数が少なく、ばらつきが大きければ正規分布しにくくなります。この場合Mann-Whitney‘s U testWilcoxon signed-rank testを用います。正規分布に従うか迷う場合はノンパラメトリック解析を選択すべきと言われています。有意差が出にくいノンパラメトリック解析を用いることで、有意差の過大評価を避けるためです。

では具体的に対応のある場合、対応のない場合とパラメトリックかノンパラメトリックかで、どのような検定手法を用いればよいかまとめます。

「対応のある」…投与前後比較など、同一個体の2種類の観測値を比較検定。薬を飲む前と後で変化はあるのか?
■パラメトリック:Paired t-test:対応のあるt検定
対応するデータの差の平均値が0からどの程度偏っているかを検定する方法です。
■ノンパラメトリック: Wilcoxon signed-rank test:ウィルコクソン符号付順位検定
データの分布形態を問わずに使うことができ、正規分布の適合性が不明な場合はこちらを用いるのが無難といわれています。
「対応のない」…2群の平均値の比較など、同一でない2種類の観測値を比較検定。独立した2群のデータに有意差があるか?
■パラメトリック:Student t-test:スチューデントのt検定
平均値を比較して検定します。症例数が多く、ばらつき(2群の分散が一緒)が均一なときに使います。
■ノンパラメトリック:Mann-Whitney‘s U test:マン・ホイットニ検定(MWU)
中央値を比較して検定します。症例数が少なく、ばらつき(2群の分散が一緒)が異なるとき使います。正規分布に従うかどうか不明な場合はこちらを用いるのが無難だそうです。

[χ2乗検定:χ2 test]
2群間が0-1型の(あり、なし)データの場合、χ2 testを用います。例えば男女比(男=1、女=0)喫煙歴(あり、なし)や疾患既往歴(あり、なし)など。比較的簡単に計算できるχ2乗検定ですが、繰り返し検定を行うと偶然有意差が出やすくなる確率(αエラー:本当は差が無いのに差があると判断してしまう)が出やすくなります。

[2つ以上の結果を比較する…分散分析]
例えばABCDEFという6種類の医薬品の比較をすべて行う場合、6C2=15通りの比較を行うことになりますが、有意水準5%で繰り返し仮説検定を行うとする。15通りの比較の中で少なくとも1回以上有意となる確率は1-(1-0.05)150.5367で約54%となってしまいます。このように2群間同士を繰り返し多重検定すると有意差が出やすくなるため(αエラーの増大)、多重検定を行うのはナンセンスです。このような場合に分散分析という手法を用います。分散分析ANOVAとは、3群以上の平均値間比較を行う方法です。
■対応のない3群間の検定
パラメトリック:One way ANOVA
ノンパラメトリック: Kruskal-Wallis test
■対応のある3群間の検定
パラメトリック:One way repeated measures ANOVA
ノンパラメトリック: Friedman test

[Kaplan-Meier法の生存曲線]
Kaplan-Meier法の生存曲線は、ある因子の有無で分けた2群において、死亡までの期間または観察打ち切りまでの期間を表します。死亡するまでの時間だけでなく、イベントが発生するまでの時間(癌再発や心筋梗塞発症など)にも使用できます。また、打ち切りが扱えるのが生存分析の利点といわれています。 打ち切り例とはエンドポイントに至っていない追跡症例のことで 観察期間を終わった時点で生存している症例や他の原因で死亡した症例消息不明例などです。打ち切りが多いと問題があることもあり、特に消息不明例の場合には死亡の可能性も含みデータの信頼性が低くなることがあります。Kaplan-Meier法において、2群間の差は、Log-rank test(全期間を通じての生存曲線の差を比較するノンパラメトリック検定)あるいは一般化Wilcoxon検定で行われます。

[多変量解析(Multivariate analysis]
「多くの個体について、2つ以上の測定値(身長や体重、年齢、病期、BMI、教育水準など)がある場合、これらの変数の相互関連を分析する方法の総称」です。独立変数(x) とは、学歴、病状分類、性別など結果:y に影響を与える因子のことをさします。従属変数(y) とは、生存の有無、発症の有無など、xの影響による結果の値、結果の状態をさします。

■独立変数(x)結果yに影響を及ぼすと考えられる様々な因子。
■従属変数(y)生存の有無や発症の有無等の結果の値。

結果の値(従属変数:y)に対して複数の因子(独立変数:x)の影響を知りたい場合に多変量解析を使います。主にCox回帰比例ハザード分析、ロジスティック回帰分析、重回帰分析などが使用されます。

Cox回帰比例ハザード解析
時間的要素を考慮しなければならず、従属変数が0-12値型(ある、なし)の場合にもちいます。試験デザインは主にランダム化比較試験やコホート研究などで採用されていることが多いです。従属変数(y)イベントが起こった群(1)と起こらない群(0)の2群に対して、時間的要素も考慮して複数の独立変数(x)の影響度合いを解析する方法で、相対危険はハザード比で表されます。
ロジスティック回帰分析
  時間的要素がなく、従属変数が0-12値型(ある、なし)の場合、例えば症例対照研究などで用います。1つの従属変数(y)に対して複数の独立変数(x)の影響度合いを解析する方法で相対危険はオッズ比で近似されます。
重回帰分析
時間的要素がなく、従属変数(y)が点数、身長、採血値などの量的データ、独立変数(x)も量的データの場合(2値ではなく連続値)に用いられます。連続値を解析する手法なので重大なアウトカム発症の有無などを検討する重要な臨床試験に用いられることは稀です。

Cox 回帰とロジスティック回帰の比較してみます。共通点としてリスク因子がエンドポイントの発生確率を何倍引き上げるのかを示す推定値を算出できます。ロジスティック回帰ではオッズ比(補足参照)、 Cox 回帰ではハザード比で求められます。ロジスティック回帰では、観察開始後一定期間以内に起きたエンドポイント発生の有無のみが情報として用いられるため、エンドポイント発生までの時間的要素はありませんが、Cox 回帰では、エンドポイント発生までの期間がモデルに組み込まれているため、観察期間全体を通しての時間的要素のある比較が行われます。

[ランダム化比較試験での統計解析例]
例えば2群間の死亡リスクを統計解析する場合
■生存率の推定・・・Kaplan-Meier法の生存曲線を用いた生存率の推定
■生存率の差の検定…Log-rank test
■相対危険の推定…Cox回帰比例ハザード解析
インパクトのある重要なランダム化比較試験では時間の経過による死亡有無のような2者択一アウトカムという例が多いため、このような3段階がオーソドックスな統計手法と言えます。論文の結果の表から発生率を用いて直接相対リスクを算出しても最終的なハザードリスクと微妙に一致しないのはこのような統計解析による調整がなされているためです。コホート研究でも同様の手法が採用されていることがあるようです。コホートもランダム化がされていないだけで、時間の経過と2者択一アウトカムという試験デザインが可能だからです。一方で症例対象研究では、既にアウトカムの発症あり、なしを集めていますので時間の経過は関係ありません。この場合ロジスティック回帰モデルが用いられます。特に症例対象研究では条件付きロジステック回帰分析と言う手法が用いられるようです。

(補足)オッズ比とは
オッズ比とはある事象が起こる確率と起こらない確率の比です。たとえば宝くじが当たる確率が10%としましょう。当たらない確率は90%ですからオッズ比は
10/100-10%)=0.11となります。
オッズ比は相対リスクと同じように関連を示す指標として使用できます。要因と疾患の関連がなければオッズ比は1となり、要因への暴露が疾患の増加と関連すれば1よりも大きくなり、逆に疾患が減少すれば1よりも小さくなります。
以下の症例対照研究の例をもとに肺癌は喫煙と関連するのか推定します。

肺癌あり(ケース)
肺癌なし(コントロール)
喫煙あり
80
20
喫煙なし
20
80
この例ではケースにおいて喫煙への暴露割合は80%でした。
ケースにおける要因へのオッズ比は80/204
またコントロールでは喫煙への暴露割合は20%でした。
コントロールの要因へのオッズ比は20/800.25
したがってこの研究でのオッズの比は4/0.25=16となります。

肺癌あり(ケース)
肺癌なし(コントロール)
喫煙あり
a
c
喫煙なし
b
d
簡単にケースとコントロールのオッズ比を公式化すると

オッズ比=a×d / b×c となります 80×80/20×2016となりますね。たすき掛け比なんて呼ばれています。

2013年10月25日金曜日

大規模臨床試験SAVORに思う。

手元にサキサグリプチンに関する講演会の案内が届きました。都合上参加できないのですが、あわせて欧州糖尿病学会におけるSAVOR試験の報告を、まとめたパンフレットがついていたので読んでみて思う…。

[サキサグリプチンはプラセボに比べて優れた薬剤か?]
SAVORDPP4阻害薬であるサキサグリプチンの安全性及び有効性をプラセボと比較した臨床試験です。あらためて原著論文を今読んでいます。
対象患者はHbA1c16.5%~12.0%の2型糖尿病患者の中でも40歳以上で心血管疾患を有する患者、または55歳以上の男性もしくは60歳以上の女性で心血管リスクを有する患者16492人でその平均年齢65.1歳でした。平均BMI30を超え、かなりハイリスクな糖尿病患者を対象にしていたことが分かります。この試験は心血管死亡、非致死的心筋梗塞、非致死的虚血性脳卒中の複合アウトカムを検討しており、このようなハイリスク患者が対象となっているにも関わらず、その効果はプラセボと同等と言う結果でした。
O
サキサグリプチン
8280
プラセボ
8212
ハザード比
[95%信頼区間]
心血管複合アウトカム
613
7.3%)
609
7.2%)
1.00[0.891.12]
(危険率P=0.99

この試験結果は20139月にスペインで開催された欧州糖尿病学会で報告されました。それに基づいたメーカー作成の資料を見ると、サキサグリプチンは「心血管イベントの非劣性を証明」と見出しをつけています。

臨床試験で検証すべきアウトカムは事前に仮説を立てます。薬の効果を検証しているので、この場合サキサグリプチンがプラセボに比べて優れた薬剤かを検証するのが常識的に考えて妥当だと思います。
「仮説①:サキサグリプチンは心血管イベント抑制においてプラセボよりも優れた薬剤である。」
統計的にこの仮説が有意(偶然ではない。95%信頼できる仮説である)であるという事を示したい場合、ちょっとややこしいのですが、以下のような仮説を否定することで示します。
「仮説②:サキサグリプチンは心血管イベント抑制においてプラセボと同等である」
プラセボと同等であるという仮説を否定することでプラセボよりも優れた薬剤であるという仮説を採用するのです。否定される仮説、この場合仮説②を帰無仮説、それに対立する仮説①を対立仮説と言うのでした。
ちなみに危険率P値は帰無仮説が成立する確率を示しており、従って、この試験を常識的に解釈すれば、P0.99ですから、仮説②が成立する確率は99%という事になり、仮説②を棄却できず、
仮説①は保留されることになります。この場合「サキサグリプチンは心血管イベント抑制においてプラセボよりも優れた薬剤であるかどうかは分からない」となります。

[サキサグリプチンのプラセボに対する心血管イベントの非劣性を証明?]
メーカーの言うところによれば「心血管イベントの非劣性を証明」となっています。意味するところは「サキサグリプチンは心血管イベント抑制においてプラセボよりも優れた薬剤であるかどうかは分からない」と同じような気もしますが、だいぶ印象が異なります。非劣性とは治療群が対照群に比べて、少なくとも劣っていないかを検証するデザインで、通常は両方とも実薬を用いることが多いと思います。例えばサキサグリプチンはメトホルミンにくらべて心血管イベントが少なくとも劣っていない=メトホルミンに非劣性、と言うような感じです。心血管イベントの非劣性とは聞こえがいいですが、何と比較しているのかが問題です。対照はプラセボなんですよ、この試験。「サキサグリプチンのプラセボに対する優越性は認められなかったものの非劣性が証明された」というのは、「効果はプラセボよりも優れてないかもしんないよ、でもさ、少なくともプラセボとおんなじ効果という事だね。」という意味不明な負け惜しみを言っているだけに聞こえます。

この試験では安全性に対して
仮説①:サキサグリプチンはプラセボに比べて心血管イベントリスクが高い。
という対立仮説に対して帰無仮説は
仮説②:サキサグリプチンはプラセボに比べて心血管イベントリスクは同等である。
と言う感じになっています。
P0.99ですから99%の確率で仮説②が成立することになり、棄却できません。すなわちサキサグリプチンはプラセボに比べて心血管イベントリスクが高いかどうかは分からないと言う結果になり、サキサグリプチンは少なくともプラセボに比べて心血管イベントリスクは高くないという解釈になっています。メーカーが強調しているのはこの部分です。仮説①をよく考えるとプラセボよりも心血管イベントリスクが高いという仮説が前提となっており、そうなると、もはやこれは薬ではない気もします。ましてや糖尿病治療の真のアウトカムである心血管リスクがプラセボよりも高くなるという仮説を設定すること自体…。サキサグリプチンを服用すればHbAc1の低下が期待できることはわかりますが、血糖を下げるだけなら、いくらでも安い薬が存在しますし、より有効性が期待できる可能性のある薬剤が存在します。

[サキサグリプチンは本当に安全な薬か?]
そればけならば、まだましかもしれません。この試験では当然有害なアウトカムも報告されています。主要なものを以下にまとめます。

O
サキサグリプチン
8280
プラセボ
8212
ハザード比
[95%信頼区間]
心不全による入院
289
3.5%)
228
2.8%)
1.27
[1.071.51]
重度の低血糖

177
2.1%)
140
1.7%)

P0.047
総死亡

420
4.9%)
378
4.2%)
1.11
[0.961.27]

心不全による入院は統計的に有意に増加しています。これに対してメーカーのパンフレットでは血中NT-pro BNP濃度による層別解析のデータを持ちだして、ややこしな言い訳をするとともに心不全による死亡は増加させていないと締めくくっています。入院リスクを増加させるけど死亡は増やさないから、血中NT-pro BNPが低ければそれほど心配はいらないよ、という風にも受け取れる記載ですが、まあ一応パンフレットには「慎重に検討する必要がある」と結論しています。

心不全による入院というアウトカムはその重症度が加味されておらず、軽症例や無症候性を見逃している可能性もあり、リスクの過小評価を行っている可能性があります。また死亡は増やさないと言っていますが、そんなことはこの試験からは分からないという可能性が高いです。

Xの法則と言うのがあります。ある頻度のイベントを検討する際に、最低どれくらいの症例が必要かを簡易的に決める法則です。100人に1人の副作用を検討するには症例として300人必要という感じです。したがって10000人に1人の割合で発生する副作用の検討には30000人の症例が必要なのです。この試験の症例は16492人ですから検出できる副作用は約5500人に1人、すなわち0.02%以上の頻度で起こる副作用のみです。対象患者の平均年齢から考えても心不全による死亡リスクを検出するには症例が不足している可能性が十分に考えられ、ランダム化比較試験ではその検出に限界があると考えられます。その程度の頻度なら問題ないのでは…という事はこの薬に限ってはあり得ません。何せ有効性がプラセボと同等なんですから。またこの報告では以前より懸念されていた膵炎の副作用に明確な差は無いとしていますが、この法則に当てはめてみれば、そんなことはこの試験からは分からないという事がお分かりいただけるでしょう。膵炎リスクに関しては過去に因果関係を示唆した報告があります
(参考)DPP4阻害薬(およびGLP-1作動薬と急性膵炎リスクの関連(症例対照研究)
Glucagonlike Peptide 1-Based Terapies and Risk of Hospitalization for Acute Pancreatitis in Typ 2 Diabetes Mellitus. JAMA inten Med.2013;()6 doi:10.1001

当然ながら重度の低血糖はサキサグリプチンで多く報告されました。メーカーパンフレットによれば併用薬別の解析を持ち出してややこしなことになっていますが、何はともあれ、有効性に関してはプラセボと同等の有効性の薬剤ですから…。また重度の低血糖は死亡リスクに関連するなど軽視できない副作用です
(参考)重症低血糖で心血管リスクは有意に増加
Severe hypoglycemia and cardiovascular disease: systematic review and meta-analysis with bias analysis BMJ 2013;347:f4533 PMID:23900314
(参考)重症低血糖と死亡リスクは有意に増加
Association of Clinical Symptomatic Hypoglycemia With Cardiovascular Events and Total Mortality in Type 2Diabetes: A nationwide population-based study. Diabetes Care. 2013 Apr;36(4):894-900 PMID:23223349
そして総死亡リスク、これは有意差こそついていないものの増加傾向にあることが示されています。これが本当に安全な薬なのか、メーカーはきちんと説明すべきでしょう。

[この試験の結果をどう活用すべきか]
メーカーパンフレットによればサキサグリプチンの高い安全性が期待できるころを示したものであると言える、としているのですが、僕の考えはだいぶ異なります。ただ少なくともDPP4阻害薬に示唆されていた心血管イベント抑制効果は怪しいものとなったことが明確にわかります。
(参考)DPP4阻害薬と心血管疾患の関連を検討したメタ分析
Dipeptidyl peptidase-4 inhibitors and Cardiovascular risk : a meta-analysis of randomized clinical trials Diabetes Obes Metab.2013 Feb;15(2):112-20PMID:22925682
Meta-Analysis of Effect of Dipeptidyl Peptidase-4 Inhibitors on Cardiovascular Risk in Type 2 Diabetes Mellitus Am J Cardiol. 2012 Jun 14[Epub ahead of print]PMID:22703861
したがって、サキサグリプチンを含むDPP4阻害薬を積極的に使用すべき根拠は不明確となった点は非常に重要です。サキサグリプチンに関しては心不全による入院リスクという有害アウトカムが見え隠れしています。さらに重度低血糖や増加傾向にある死亡リスク…。サキサグリプチンの高い安全性どころか、リスクベネフィットのバランスがとれておらず、積極的に使用すべきではない根拠として重要である論文と言えましょう。


メーカーによるSAVORを用いたプロモーションが動き出しています。本当に安全性の高い薬剤なのか冷静に考えるとともに、糖尿病の治療は血糖値を下げるだけではなく、真に必要な有効性は心血管イベント抑制効果、そして新薬の高いコストを考慮に入れたとき、本当にこの薬剤が患者にとって必要なのか、僕は常々考えたいと思います。高い薬を飲んで心不全入院リスクや低血糖が増えて、心臓病も減らせないのなら、安くて比較的心血管イベント抑制を示唆されている薬を飲んで、余ったお金で温泉でも行った方が良いと思うのです。また、そもそも薬は必要か、糖尿病とはなにか、基本的なところで、その問いを重視したいと思います。

2013年10月23日水曜日

統計学お勉強日記②~推定と検定~

1回目はこちらです。
この記事は僕の個人的な勉強の整理メモです。今後修正が必要な個所もあるかと思います。誤り等ありましたらご連絡ください。

[臨床試験の結果の解釈に必要な2つの統計解釈]
ランダム化比較試験の代表的な結果の表し方に相対リスク((Relative RiskRR)があります。いわゆる相対指標と言われるもので、実薬群、プラセボ群、各群のアウトカム発生割合の相対比であらわされます。
例えば…
■実約群での心筋梗塞の発症  20
■プラセボ群での心筋梗塞発症 30
■相対危険RRは?
 □RR(実薬群の発生率)/(プラセボ群の発生率)0.2/0.30.67
 □RRR(相対危険減少)=1-RR0.33
 □介入群はプラセボ群に比べて心筋梗塞が相対評価で33%低い

標本母集団の要約値、すなわち臨床試験参加者での結果である、薬剤のプラセボと比較したイベント発生率の相対比(相対リスク)から、母集団の要約値(全対象患者)を確率的に推測して母集団の様子を記述する方法は2つあります。それが「推定」「検定」です。
「推定」…母数がどれほどの値なのかを推測する手法
「検定」…母数が意味のある基準値と等しいか等しくないか○×で推測

[推定統計]
臨床試験では標本平均に対する相対リスク等のデータ(点推定値)が得られますが、対象患者は試験参加者に限定されたものです。実際の患者さんすべてにおいて、そのデータがどうなっているのか、推定統計はある程度幅を持たせて母数を推定する方法です。すなわち標本平均のデータから母平均を確率的に類推するというのが推定統計です。

標準偏差(SD)は前回少しまとめました。標準偏差はデータの「分散」の平方根で求められ得られた標本平均からのデータのばらつきを示すものです。すなわちサンプルがどの程度ばらついているかを示しています。試験で得られたデータの症例数が十分に大きく、その分布が正規分布に近ければ、平均値±2標準偏差の範囲に標本のデータが入る確率は95となります。これは数学的に証明されているようですが、ここではこれ以上の深入りはいないで先に続けます。
標準誤差(SE)とは試験を繰り返すことにより求められる平均値のばらつきです。標準偏差が1回の試験で求められるのに対して標準誤差は複数回試験を繰り返し、その平均値のばらつきを表しています。繰り返し実験を行った際に平均値がどの程度ばらついているかを示しています。つまり実験を100回繰り返せばその信頼性は確実に上昇するのですが、臨床試験は何回も行うことができませんので、以下のように標準誤差を求めます。
 SE=SD/n
標準誤差は標準偏差を症例数の平方根で割ったものと等しいという関係性があり、したがって標準誤差は必ず標準偏差よりも小さくなりますし、症例数が増えれば増えるほどデータは先のとがった正規分布になります。標準誤差は、母平均の区間推定を行う時に用います区間推定とは母平均はどれくらいの幅の中にどれくらいの確からしさで存在していると推定できるかという事です。その幅を信頼区間といい、どれくらいの確からしさと言うのを信頼係数で表します
そして、先ほどの標準偏差の考え方と同様に、母平均の±2標準誤差の間に約95%の標本平均が含まれることが数学的に証明されています。したがってある試験結果から、標本平均と標準誤差を得たとき、標本平均±2×標準誤差の幅を設ければ、その幅の上限~下限が信頼区間となります。信頼係数は通常95%を用い、これにより表される信頼区間を95%信頼区間と呼びます。

※厳密には標準誤差にかける22ではなく自由度(n-1)により値が少し変化します。この係数をt値といます。また95%からはずれた5%(1-信頼係数)を用いてt値は[t(n-1),0.05]とあらわされます。

例えば、試験結果、あるイベントの相対危険がプラセボ群に比べて実薬群で1.5であった場合、プラセボに比べて1.5倍イベントが実薬群で多いことを表していますが、1.5は標本平均での値を示しており、母平均とは必ずしも一致しません。
1.5[95%信頼区間0.82.0]となっていた場合、「母平均は95%の確率でほぼ0.82.0の間にある」と考えて支障はないと思います。すなわち薬はイベントを0.2減らすかもしれないし、2倍に増やすかもしれないという感じです。厳密に言えば、100回臨床試験をおこなってそのうち95回は0.82.0の間に母平均が入っているという解釈で、0.82.0の間に母集団に入っているか否かのみで考えれば95%は入っており、5%は入っていないという感じになります。

信頼係数は95%を用いることが多いですが、この信頼係数が大きくなれば当然、推定の精度は向上します。しかし、信頼係数を大きくすると信頼区間の幅が大きくなり、実用上、その解釈が困難になることもあります。逆に信頼係数を低くすれば信頼区間を狭くすることができますが、その推定精度は低下し、これも実用上耐えられるものではなくなってしまいます。

[検定統計]
例えばプラセボと薬剤Aのイベント抑制効果をランダム化比較試験で検証したとします。試験を行う前に薬剤Aのプラセボに対する効果は以下の2通りで仮説の記述が可能です。

(1)薬剤Aの効果はプラセボと同等である…帰無仮説
(2)薬剤Aの効果はプラセボと同等ではない…対立仮説

薬剤Aがちゃんと効果があり、プラセボと同等でないことを期待したい場合、統計的な仮説検定では(1)の薬剤Aの効果はプラセボと同等である可能性が相当低くなれば、(1)の仮説が棄却され(2)の結論を採用するということになります。棄却される(1)の仮説を帰無仮説といい、それに対立する仮説(2)を対立仮説といいます。

試験を行った結果
A群ではイベント発生率が10%、プラセボ群では20%だったとすると、相対リスクは0.5となり、A群はプラセボ群に比べて50%もイベントを減らせるという感じになっています。また95%信頼区間が0.20.7だとしたら、医学論文では以下のように記載されることが多いです。

相対リスク0.5[95%信頼区間0.20.7]

相対リスクが1となればプラセボと同等になるわけですから、この結果はプラセボと同等ではないという事になっており仮説(2)が正しいことになります。95%信頼区間は有意水準5%に対応しており、この場合、仮説(1)が正しい確率は5%であるという事が言えます。

有意水準5%を用いた場合、帰無仮説が成立する確率は5%である⇒帰無仮説が成立する可能性は極めて低いと考えられる⇒帰無仮説は棄却し、対立仮説が95%の確率で成立することになる、と考えてよいかと思います。有意水準5%は危険率とも呼ばれ、このまま素直に信頼して対立仮説を結論として採用した場合に、その対立仮説が誤っている可能性を表しています。誤っていたら危険!これはエラーですよね、という事で危険率、そしてこの確率をαエラー(第1種のエラー)といいます。通常危険率は5%が用いられることが多くP=0.05 などとあらわされます。


P0.05以下であれば、対立仮説が誤っている可能性は5%以下、すなわちプラセボと同等である確率は5%以下となって帰無仮説は棄却されます。有意差ありなどと記述されます。対立仮説の信頼性は95%以上となります。

P0.05以上であれば、対立仮説が誤っている可能性は5%よりも大きくなり、対立仮説の信頼性は低くなります。帰無仮説であるプラセボと同等な可能性が高まってくるわけで、この場合棄却することが難しくなります。この場合有意差が無いなどと記述され、結果は保留とします。(効果なしではないことに注意)

[検定した判定は正しいのか正しくないのか]
■正しい判定とは
帰無仮説が真のとき、帰無仮説を棄却しない
差があるときに、差がないと判定しない
対立仮説が真のとき,帰無仮説を棄却する
差があるときに、差があると判定する
■誤った判定とは
帰無仮説が真であるのに、無仮説を棄却する(第1種の過誤:αエラー)
差がないときに、差があると判定してしまう誤り
対立仮説が真であるのに、帰無仮説を棄却しない(第2種の過誤:βエラー)
差があるときに、差があるとは判定しない誤り


帰無仮説を棄却しない
帰無仮説を棄却する
帰無仮説が真
正しい判定
誤った判定(αエラー)
対立仮説が真
誤った判定(βエラー)
正しい判定

(1)薬剤Aの効果はプラセボと同等である…帰無仮説
(2)薬剤Aの効果はプラセボと同等ではない…対立仮説
を例にとれば、Aがプラセボと同等の効果なのに同等ではないと判定した場合αエラーとなります。またAがプラセボと同等ではないのに同等と判定しまう場合をβエラーと言います。
αエラー、βエラーについてはこちらもご参照下さい。

[統計的有意と臨床的影響]
危険率が0.05を下回れば統計的には帰無仮説が棄却され対立仮説が成立する可能性が95%以上となります。上の例でいえば薬剤Aの効果はプラセボと同等でない確率は95%以上です。逆に言えば、検定統計でわかることはプラセボと同等か同等でないかを確率的に判断しているにすぎません
また5%という事は20回の臨床試験で1回はαエラーを起こしていることになります。すなわち20回の臨床試験のうち1回は効果においてプラセボと同等なのに、プラセボと同等ではない、という結果に理論上はなっているのです。また1つの臨床試験でみても試験の結果を様々な分析をおこなって、例えばイベントリスクの他にも、死亡リスク、心血管死亡リスク、心血管イベント、脳卒中イベント、・・・・のように20個アウトカムを設定すればそのうち1回はエラーが起きている可能性があります。
20こと言わないまでも5つのアウトカムがあれば、5つの仮説のうち1つにまぐれあたりが出る確率は 1-(5つともまぐれあたりしない確率)= 1-(0.955=0.23 ・・・23
となり有意水準は0.23となります。このようにアウトカムの数が多いほど有意水準は緩くなり偶然の確率が上昇してしまい、理論上はP0.05で有意差ありとはできなくなります。

本来、臨床試験のアウトカムはこのような観点から1つのみ設定することが重要で、このような重要なアウトカムをプライマリアウトカム(一次アウトカム)と呼び、最もエラーが起きる可能性が少ないアウトカムと考えられます。論文の中にはプライマリアウトカムを複数設定しているものもありますが、これは本来ナンセンスです。

またたとえ一つのアウトカムで有意差が出たとしてもそれがはたして実臨床にどの程度影響のあるものなのか、統計的有意と臨床的有意にはかなりのギャップがあります。このような観点からすれば検定統計で○×判定するよりも、推定統計を用いて幅をもって考えることの方が実臨床では、はるかに重要です。

2013年10月18日金曜日

お知らせ:第2回薬剤師のジャーナルクラブ

2回薬剤師のジャーナルクラブを開催いたします!
ツイキャス配信日時:平成251027日(日曜日)
■午後2045分頃 仮配信
■午後2100分頃 本配信
なお配信時間は90分を予定しております。

ツイキャス配信はこちらからhttp://twitcasting.tv/89089314
ツイッター公式ハッシュタグは #JJCLIP です
ツイキャス司会進行は、精神科薬剤師くわばらひでのり@89089314先生です!
ご不明な点は薬剤師のジャーナルクラブフェイスブックページから、又はツイッターアカウント@syuichiaoまでご連絡下さい。

症例22型糖尿病患者の心血管イベント予防に低用量アスピリンは有用か?

[仮想症例シナリオ]
あなたは病院で勤務する薬剤師です。午前の忙しい業務を終えたあなたは、やっとお昼ご飯を食べることができました。食堂の席について昼食を食べていると、いつも声をかけてくれる内科の医師がやってきました。「お疲れ様、そうそう、ちょっと君に聞きたいことがあったのだけど、例えば、2型の糖尿病患者ではやっぱり心血管イベントリスクは高いと思うんだけど、予防的に低用量アスピリンって効果あるのかな?」あなたはすぐに答えることができずに、「少し調べてみます」と医師に伝えると、昼食を5分で食べ、午後の昼休みに必死で論文を検索しました。

文献:Ogawa H, et al. Low-dose aspirin for primary prevention of atherosclerotic events in patients with type 2 diabetes: a randomized controlled trial. JAMA. 2008 Nov 12;300(18):2134-41. PMID:18997198 (JPAD試験)

なおワークシートは薬剤師のジャーナルクラブオリジナルのものを使用します。

前回と同様にまずはPECOからです!対象患者さんはどんな患者さんなんでしょうか。シナリオには明確に書いてありませんね。医師への情報提供を意識しながら、いろいろな患者さんを想定すると、論文の結果もいろいろな角度から考察することができそうです。


薬剤師のジャーナルクラブでは取り上げてほしい論文、一人で解決できない臨床疑問を随時募集しております。合わせてご意見などもいただければ幸いです。ご意見等はフェイスブックページやツイッターアカウント@syuichiaoまでご連絡ください。

薬剤師のジャーナルクラブ(Japanese Journal Club for Clinical PharmacistsJJCLIPは臨床医学論文と薬剤師の日常業務をつなぐための架け橋として、日本病院薬剤師会精神科薬物療法専門薬剤師の@89089314先生、臨床における薬局と薬剤師の在り方を模索する薬局薬剤師 @pharmasahiro先生、そしてわたくし@syuichiao中心としたEBMワークショップをSNS上でシミュレートした情報共有コミュニティーです。