統計学的有意差と一般人の感覚

2019年 日本臨床腫瘍学会より

 肺癌臨床研究の領域では、非喫煙 / 軽喫煙者の進行非小細胞肺癌に対するgefitinib vs CBDCA+PTXの効果を検証したIPASS試験の結果が公表されたあたりから、生存曲線の比例ハザード性が必ずしも成立しない(放物線の下降部分のような曲線ではなく、S字状曲線になる)ことが意識され始め、問題視されていた。

 最近では、異なる治療群間で経時的な比例ハザード性が認められない場合がしばしば認められるようになった。

 IPASS試験では、交絡因子としてEGFR遺伝子変異の有無があったわけで、そこを調整すれば比例ハザード性が認められるようになったわけで、背景因子をどのように探るのかが治療開発上大切なプロセスになっている。

 免疫チェックポイント阻害薬の領域でも、初期のCheckMate-017や-057試験では曲線が交差していたが、PD-L1発現状況で補正したKEYNOTE-024試験では見事に生存曲線が分かれ、比例ハザード性が(素人目には)認められるようになっている。

 しかし、この項で取り上げるのは、ちょっと趣が違う話題。

 どうも外科の先生方は、治療成績があまりに良すぎて、治療群間のどちらにも亡くなったり術後再発したりする患者がいないため、統計学的な差が出せずに新規治療の有効性が証明できないということで困っているようなのだ。

 いろいろと統計手法をいじくって差が出るようにしようと苦心しているらしい。

 一般的な感覚からすると、大規模な臨床試験を組んでも生存についての差は出せそうにないからと中間解析時点で公表して、異なるエンドポイントを設定して取り組んだ方が建設的なように思う。

 患者が死なない、術後再発しない、そのために統計的な意味づけができないと残念がるよりも、わが国の手術成績が良すぎて非劣勢試験デザインが成立しがたいことを誇るべきだろう。

○SPS 1-1 / SPS 1-2 / SPS 1-3

・カプランマイヤー生存曲線の比例ハザード性があるかないかはどう判断する?

→縦軸に生存データの二重対数、横軸に生存データの対数をとってplot

・優越性を検証する試験

 比例ハザード性があると判断されれば、ログランク検定、Cox比例ハザードモデルは信頼できるが、なければ他の評価法が必要かもしれない

→RMST(境界内平均生存期間):一定の期限内の生存曲線下面積(期間内の平均生存期間)を算出して各群間で比較、その差に臨床的な意義があるのかどうかを検証する

 Uno et al., J Clin Oncol 2014

 Uno et al., Ann Intern Med 2015

・非劣勢を検証する試験

 もともと、二群の曲線が重なることを期待して試験デザインをする

 ハザード比の上限を規定する

 比例ハザード性はあまり考えなくていい

 予想より生命予後がよいと、イベントが起こらずにnegative studyになってしまう

 →JCOG 0404 study, 大腸がんに対する開腹手術と腹腔鏡手術を比較する非劣勢試験

  生存曲線はほぼ重なっているが、イベントが少なく統計的にはnegative

  Kitano et al., Lancet Oncol 2017

 →JCOG 1413 study, 臨床病期I-II期の非小細胞肺癌に対する系統的リンパ節郭清と選択的リンパ節郭清を比較する非劣勢試験

  JCOG 0404 studyと同様、生存曲線はほぼ重なっているが、イベントが少なく統計的にnegative studyになりそう→プロトコール改訂を行い、評価項目をRMSTに変更した

・比例ハザード性が成立しないパターン

 イベント数が少ない(患者の生命予後がいい)

 治療の遅発効果がある(免疫チェックポイント阻害薬のように、初期の治療効果はあまりよくないが、長期生存例が多い場合など)

 生存曲線が交差する(IPASS試験や初期の免疫チェックポイント阻害薬の臨床試験など、なぜ交差するのかを検証するのがとても大切な作業となる)

 途中で開いていた治療効果の違いが、最後にはなくなってしまう

・ハザード比以外のエンドポイントとして想定される指標

 生存期間中央値(全生存期間、無増悪生存期間)

 一定期間後の生存割合(5年生存割合など)

 平均生存期間

 RMST

・外科の臨床試験を立案する上での問題点

 イベントが少ない→技術や機材の向上により治療成績がよくなっている

 臨床研究法の規制により周術期の治療開発が難しくなった

 評価項目の変化:生存に関する項目から、侵襲の程度やコスト、QoLといった項目へニーズが切り替わっている

 高齢化、他病死の問題

 新規内科治療により患者生存割合が底上げされている→イベントがなかなか起きない

・JCOG 1708 study:優越性試験

 特発性肺線維症合併非小細胞肺癌に対する標準切除 vs 部分 / 区域切除

 特発性肺線維症合併非小細胞肺癌の術後急性増悪発症割合は10−15%で、一旦発症すると死亡割合は50%程度(Saito et al., JTCVS 2016)

 中間解析の段階では、どうも比例ハザード性がなさそうな生存曲線

・イベントが少ないほど、ハザード比が大きくても臨床的な両群間の差は小さくなる

→出てきた結果にどのような意味づけを行うかは、臨床家の肌感覚が必要