非小細胞肺癌の第III相臨床試験の質と解釈・・・The Bar Is Dropping

 先だってFaceBookでも取り上げましたが、Journal of Clinical Oncologyに下記の論文が発表されました。

http://jco.ascopubs.org/content/early/2014/03/03/JCO.2013.52.7804.full.pdf+html

 私自身、あんまり熱心に論文をチェックする正確ではないのですが、この誌面に"processed as a rapid communication manuscript"として扱われるものは、あまり多くないのではないでしょうか。

内容が、臨床試験についてここ数年常々考えていたことを見事に代弁してくれていたので、掲載します。

 決して長くない論文(本体はTable1つ、Figure1つを含めてわずか3ページ半です)で、Table 1さえ見れば大体のことは分かるので、是非原著に目を通していただきたい。

 非小細胞肺癌の臨床試験デザイン、結果の解釈にまつわる、現代の大きな問題点が、ここに凝縮されています。

 本論文の目的は、「進行非小細胞肺癌領域では、新しい治療薬を用いた多数の臨床試験があるにも関わらず、生命予後は不良なままであるが、本研究では進行非小細胞肺癌の臨床試験のデザインや結果の解釈が経時的にどのように変わってきたかを検証する」とされています。

臨床試験のデザインや結果の解釈の手法が不適切で、非小細胞肺癌の治療成績向上にブレーキをかけているのではないか、と受け取れる、なかなか刺激的な内容です。

 1980年から2010年までに論文発表された、進行非小細胞肺癌の治療に関する無作為化第III相臨床試験PubMedで検索し、主要評価項目、アウトカム、統計学的有意性、試験の結論について調査した、とあります。

 解析をするにあたって、1980年-1990年、1991年-2000年、2001年-2010年と、3つの期間に区切り、それぞれの期間を比較検討しています。

 スクリーニングの段階で245件の臨床試験が抽出され、そのうち203件が実際の解析に供されました。

第III相臨床試験実施数

 行われる第III相臨床試験の数は時代を追って増加しており、1980年-1990年は32件、1991年-2000年は53件、2001年-2010年では118件と、実に3倍以上まで増加しています。

 また、それぞれの臨床試験自体が年々大規模化しており、参加する患者さんの数がどんどん増えています。

登録患者数中央値

 上のグラフは、臨床試験に参加した患者さんの数の平均値を示したものですが、1980年-1990年では152人、1991年-2000年では184人、2001年-2010年では413人です。

 1980年-1990年の期間で最大の臨床試験では参加者が743人でしたが、2001年-2010年の期間では1725人で、桁がひとつ違います。

 わずかずつですが、それぞれの臨床試験に参加した患者さんの生存期間中央値の平均値は向上しています。

 生存期間中央値の平均

 1980年-1990年の期間では6.7ヶ月だったのが、1991年-2000年には7.9ヶ月、2001年-2010年には9.5ヶ月となっています。

 最近の大規模臨床試験では、高い効果が得られると分かっている患者に対する分子標的薬の検討や、治療効果が高かったと分かった患者さんのみに治療を延長して、その患者さんの生存データのみを解析する維持療法の検討が多いため、見かけ上は生存期間が延びていて、1年半から2年程度の生存期間を報告する論文が増えてきましたが、非小細胞肺癌患者さん全体の生存解析となると、上に示されたようなデータがより実臨床に近いように感じます。

 実際のところ、試験治療群の内容には経時的な変化が現れています。

investigated armの変遷

 上のグラフは、臨床試験において、試験治療群としてどのような治療が採用されたか、その割合を示しています。

 1980年台に行われていた3剤、4剤併用等の多剤併用化学療法の割合は経年的に減少しています。

 いわゆる"(platinum) doublet chemotherapy"の割合はほぼ変わっていません。

 単剤化学療法、もしくは分子標的薬の割合は、経年的に増加傾向です。

 PS不良患者さんや高齢患者さんの臨床試験が増えてきたこと、2000年代になって分子標的薬が臨床現場に登場し、紆余曲折はあったものの確かな足場を築いたことが関連していると思われます。

 ここからの内容が、本論文の重要な部分です。

 次のグラフは、「試験治療群は有望である」と報告された割合を示しています。

positive trials

 1980年-1990年には全体の31%でしたが、1991年-2000年では70%、2001年-2010年には75%の臨床試験が「試験治療群は有望である」と結論しています。

 ふつうの感覚で判断すると、「それって、どうなの?」と思ってしまいます。

 実感として、そんなにどんどん有望な治療が世に出てきている印象はありません。

 進歩がないとは言いませんが、まだまだ進行非小細胞肺癌の治療成績はそんなによくありません。

 日本人の悪性新生物による死因としては、首位を保っていますから。

 それでは、「主要評価項目に関して、統計学的に妥当であるため」「試験治療群は有望である」と報告された割合を次に示します。

endpoint matched positive trials

 1980年-1990年では全体の28%で、これは前段落の内容とそれほど乖離はありません。

 しかし、1991年-2000年では全体の53%、2001年-2010年では全体の32%です。

 すると、「主要評価項目に関して、統計学的に妥当ではないが」「試験治療群は有望である」と報告された割合は、1980年-1990年では3%、1991年-2000年では17%、2001年-2010年ではなんと43%です。

 新世紀に入ってから、「有望である」と報告された試験治療群の実に4割強は、統計学的に妥当ではないのに有望と結論され、中にはそのまま標準治療となってしまったものが含まれている、ということになります。

 ・・・「粉飾決算」もいいところです。

 「試験治療群が有望である」と評価された臨床試験のうち、全生存期間の改善がなかった報告の割合は次のグラフに示されます。

no survival benefit positive trials

 生存期間の改善がないにも関わらず「有望」と判断された治療は、1980年-1990年は9%、1991年-2000年は17%、2001年-2010年は40%と、経年的に増加しています。

 臨床試験の目的は「進行非小細胞肺癌患者さんの生存期間の延長、もしくはQOLの改善を叶える新しい治療を発掘する」ためだと思いますが、それではQOLを主要評価項目とした臨床試験が増えたということでしょうか。

 これも、肺癌の世界を見続けてきた者として、そんな実感はありません。

 では、どういった理由で「主要評価項目に関して、統計学的には妥当でないが」「試験治療群は有望である」と結論されているのでしょうか。

 次のグラフは「統計学的に有意ではないが、全生存期間に関して試験治療群が良さそうな傾向がある」と結論された報告の数です。

 当然のことながら、「統計学的処理」には「傾向を見る」ための一面があり、それで否定された以上は「・・・の傾向がある」といった結論は導き出せません。

 しかし、新世紀に入り、こういった報告が急に増えているのがわかっていただけると思います。

non significant trend in OS

 

 次のグラフは「主要評価項目に関しては統計学的に有意ではないが、副次評価項目に関しては有意であった」という報告の数です。

 これは、明らかに経年的に増加しています。

 副次評価項目としてよく取り上げられるのは、「無増悪生存期間」「毒性」等です。

 secondary endpoint positive

 「全生存期間に関しては統計学的妥当性は証明できなかったが、副次評価項目の無増悪生存期間や毒性については、標準治療群よりも有望であった」という言い回しは、分子標的薬やペメトレキセドが世に出てきて、よく耳にするようになりました。

 しかし、副次評価項目に関する解析や、サブグループ解析は、以後の臨床試験のデザインに活かす基礎データとすべきもので、当該試験の結論の評価に用いるべきではないと思います。

 次のグラフは、「非劣性が厳密には証明されていないにも関わらず、非劣性であると結論された」報告の数を示しています。

no non-inferiority

 標準治療に対して試験治療群が、「少なくとも劣ってはいない」ということを証明するためには、主要評価項目に関する治療群間の差について、95%信頼区間が事前に設定した一定の範囲に収まっていなければならないというルールがあります。

 この点を満たしていないにも関わらず非劣性と結論された報告が、これも経年的に増えていることを示した図です。

 こういった状況にあって、「統計学的に有意だった臨床試験において、試験治療群が改善した生存期間の平均値」を示すのが次のグラフです。

統計学的有意だった臨床試験の生存期間中央値

 1980年-1990年には3.9ヶ月だったのが、1991年-2000年には2.4ヶ月、2001年-2010年には2.5ヶ月と、1991年以降は若干幅が縮まっているきらいはありますが、着実に生存期間は延びています。

 同じことを、「試験治療群が有望と結論された全ての臨床試験において、試験治療群が改善した生存期間の平均値」として解析すると、次のグラフになります。

positiveと判断された前臨床試験での生存期間中央値

 1980年-1990年には3.9ヶ月だったのが(これは変わっていませんね)、1991年-2000年には2.0ヶ月、2001年-2010年には0.9ヶ月と、さきぼそる一方です。

 臨床試験結果の「解釈」が、いかに大きな影を投げかけているか、分かっていただけると思います。

 全生存期間が一般的な主要評価項目とされているのは今も昔も同様ですが、無増悪生存期間が主要評価項目とされる臨床試験が明らかに増えていて、1980年-1990年、1991年-2000年には皆無だったのが、2001年-2010年には全体の13%まで増加しています。

 二次治療以降の内容や分子標的薬によって患者さんの全生存期間が大きく左右されるようになり、無増悪生存期間を主要評価項目にせざるを得ない状況はあります。

 米国食品医薬品局は、2011年に発表した声明において、

「無増悪生存期間は、薬剤承認において主要評価項目となり得る可能性があるが、臨床試験の正確性、再現性、そして実臨床における妥当性について検討の余地がある」

としています。

 腫瘍内科学を取り巻く環境や、この分野における医薬品業界のあり方が変化し、臨床試験のデザインや解釈に影響が出ていて、それがこうした現実に結びついているのだと思います。

 臨床試験結果やガイドラインの解釈については、報告の内容をそのまま鵜呑みにせず、結果を正しく判断する「眼力」が実地臨床医に求められています。