Method Article
この研究では、機械学習モデルと競合するリスク分析を使用して、結腸直腸記号リング細胞癌患者の予後システムを評価します。これは、pN病期分類と比較して優れた予測因子として陽性リンパ節の対数オッズを特定し、強力な予測パフォーマンスを示し、堅牢な生存予測ツールを通じて臨床上の意思決定を支援します。
リンパ節の状態は、患者にとって重要な予後予測因子です。しかし、結腸直腸標識リング細胞がん(SRCC)の予後については、あまり注目されていません。この研究では、機械学習モデル (Random Forest、XGBoost、Neural Network) と競合するリスク モデルを使用して、SRCC 患者における陽性リンパ節 (LODDS)、リンパ節比 (LNR)、および pN 病期分類の対数オッズの予後予測能力を調査します。関連データは、Surveillance, Epidemiology, and End Results(SEER)データベースから抽出した。機械学習モデルでは、単変量および多変量Cox回帰分析を通じてがん特異的生存(CSS)の予後因子を特定し、その後、XGBoost、RF、NNの3つの機械学習手法を適用して、最適なリンパ節病期分類システムを確認しました。競合リスクモデルでは、予後因子を特定するために単変量および多変量競合リスク分析が採用され、SRCC患者の予後を予測するためにノモグラムが構築された。レシーバー動作特性曲線(AUC-ROC)および較正曲線の下の面積は、モデルのパフォーマンスを評価するために利用されました。この研究には、合計2,409人のSRCC患者が含まれていました。モデルの有効性を検証するために、SRCC症例を除く15,122人の結腸直腸がん患者の追加コホートを外部検証に含めました。機械学習モデルと競合するリスクノモグラムは、生存結果の予測において優れたパフォーマンスを示しました。pN病期分類と比較して、LODDS病期分類システムは優れた予後能力を示しました。評価の結果、機械学習モデルと競合するリスクモデルは、優れた識別、キャリブレーション、および解釈可能性を特徴とする優れた予測パフォーマンスを達成しました。私たちの調査結果は、患者の臨床的意思決定に情報を提供するのに役立つ可能性があります。
結腸直腸癌(CRC)は、世界で3番目に多い悪性腫瘍としてランク付けされています1,2,3。印環細胞がん(SRCC)は、CRCのまれな亜型であり、症例の約1%を占め、細胞核1,2,4を置換する細胞内ムチンが豊富にあることを特徴としています。SRCCは、若年患者と関連していることが多く、女性の有病率が高く、診断時の腫瘍病期が進行しています。結腸直腸腺癌と比較して、SRCCは分化が不十分で、遠隔転移のリスクが高く、5年生存率はわずか12%〜20%です5,6。SRCCの正確で効果的な予後モデルを開発することは、治療戦略を最適化し、臨床転帰を改善するために重要です。
この研究は、機械学習 (ML) や競合するリスク モデルなどの高度な統計的アプローチを使用して、SRCC 患者の堅牢な予後モデルを構築することを目的としています。これらの方法論は、臨床データの複雑な関係に対応でき、個別のリスク評価を提供し、予測精度で従来の方法を凌駕します。Random Forest、XGBoost、Neural Networksなどの機械学習モデルは、高次元データの処理と複雑なパターンの識別に優れています。研究によると、AIモデルは結腸直腸がんの生存転帰を効果的に予測し、臨床応用におけるMLの可能性を強調しています7,8。MLを補完する競合するリスクモデルは、がん特異的な死亡率と他の死因など、複数のイベントタイプに対処し、生存分析を改善します。Kaplan-Meier推定量のような従来の方法とは異なり、競合するリスクモデルは、競合するリスクが存在する場合の事象の限界確率を正確に推定し、より正確な生存評価を提供する8。MLと競合するリスク分析を統合することで、予測パフォーマンスが向上し、SRCC 9,10,11のパーソナライズされた予後ツールの強力なフレームワークが提供されます。
リンパ節転移は、CRC患者の予後と再発に大きく影響します。TNM分類におけるNステージ評価は重要ですが、不十分なリンパ節検査(症例の48%〜63%で報告されています)は、疾患の過小評価につながる可能性があります。これに対処するために、リンパ節比(LNR)や陽性リンパ節の対数オッズ(LODDS)などの代替アプローチが導入されています。LNRは、陽性リンパ節(PLN)と全リンパ節(TLN)の比率であり、TLN数の影響を受けにくく、CRCの予後因子として機能します。LODDSは、PLNと陰性リンパ節(NLN)の対数比であり、胃SRCCと結腸直腸癌の両方で優れた予測能力を示しています10,11。機械学習は腫瘍学でますます適用されており、モデルは乳がん、前立腺がん、肺がんなどのさまざまながんのリスク層別化と予後予測を改善しています12,13,14。ただし、結腸直腸SRCCへの適用は依然として限られています。
この研究では、LODDSをMLおよび競合するリスクモデルと統合して包括的な予後ツールを作成することにより、このギャップを埋めることを目指しています。この研究は、LODDSの予後的価値を評価し、高度な予測技術を活用することにより、SRCC患者の臨床的意思決定を強化し、転帰を改善することを目的としています。
この研究は、倫理的な承認と参加の同意を指すものではありません。この研究で使用されたデータは、データベースから取得されました。2004年から2015年に結腸直腸標識リング細胞がんと診断された患者、および他の種類の結腸直腸がんの患者を含めました。除外基準は、生存期間が1ヵ月未満の患者、臨床病理学的情報が不完全な患者、死因が不明または特定されていない症例であった。
1. データ取得
2. MLモデルの開発と検証
3. 競合リスクモデルの開発・検証
患者の特性
この研究は、2004 年から 2015 年までの SEER データベースのデータを使用して、結腸直腸 SRCC と診断された患者に焦点を当てました。除外基準は、生存期間が1ヵ月未満の患者、臨床病理学的情報が不完全な患者、死因が不明または特定されていない症例であった。選択基準を満たした合計2409人の結腸直腸SRCC患者が、トレーニングコホート(N = 1686)と検証コホート(N = 723)にランダムに分けられました。トレーニングコホートとバリデーションコホートの人口統計学的および臨床的パラメータは、 表1に示すようにRソフトウェアを使用して分析されました。対象となった患者のうち、60歳以上が大半を占め、男性患者と女性患者数は同数でした。ほとんどの患者は白人でした。患者の半数以上(56%)が既婚者でした。腫瘍の大部分はIII-IVと等級付けされました(76%)。ほとんどの患者(82%)は腫瘍の大きさが3.5センチメートルを超えており、患者の大多数(42%)はLODDS1グループに属していました。全コホートで、高い割合の患者(53%)が化学療法を受けました。原発腫瘍は主に右結腸に存在していた(67%)。無作為化後、統計的に2つのグループ間でベースライン特性に有意差はありませんでした。
MLモデルに含まれる予後臨床因子の特定
まず、Cox回帰分析を使用して、機械学習モデルに含める有意な変数をスクリーニングしました。単変量Cox回帰の結果は、生存時間が特定の臨床変数、例えば性別、年齢、人種、婚姻状況、AJCC病期分類、pT病期分類、pN病期分類、pM病期分類、腫瘍サイズ、CEAレベル、LNR分類、LODDS分類、および患者が放射線療法または化学療法を受けたかどうかなどの特定の臨床変数と有意に相関していることが示された(表2).特に、LNR、LODDS、およびpN病期分類はすべて統計的に有意なハザード比(HR)を示し、これら3つのLN病期分類システムが予後と関連していることを示しています。その後の多変量Cox回帰分析を実施して、SRCC患者におけるpN病期分類、LODDS、LNR、およびCSS間の関連をさらに決定しました。その結果、SRCC患者のCSSには、LODDS、LNR、およびpNの状態が有意に影響することが示されました(図2)。
LNシステムの比較
3つのLNシステムの予測予後能力は、トレーニング、検証、および外部検証コホート(ステップ1.4で選択された環状細胞がん以外の結腸直腸がんのサンプル)の両方で類似していました。 表3)。トレーニングコホートでは、LNR、LODDS、およびpNのCインデックスはそれぞれ0.309、0.308、および0.337でしたが、検証コホートでは、Cインデックスはそれぞれ0.288、0.279、および0.319でした。外部検証コホートでは、LNR、LODDS、およびpNのCインデックスは、それぞれ0.419、0.420、および0.424でした。さらに、トレーニング コホートの各システムの AIC 値は 12667.56、12670.57、12731.89 であり、検証コホートでは、それぞれ 4575.36、4559.13、4613.20 でした。外部検証コホートでは、各システムのAIC値は、LODDSが106554.68、LNRが106581.85、pN病期分類が106915.45でした。これらの知見は、3つのシステム間での識別品質にわずかな差しかないことを示している。そこで、RF、XGBoost、NNなどの機械学習手法を活用し、予測能力の観点から最適なLNシステムをさらに決定しました。この分析には、単変量Cox回帰で有意な変数と、機械学習モデルを構築するための少なくとも1つの多変量モデル(pN、pT、pM、年齢、人種、LNR分類、LODDS分類、患者が放射線療法を受けたか化学療法を受けたかなど)が含まれていました。
トレーニングデータセットを使用して、RF、XGBoost、およびNNモデルを構築しました。各変数の重要度の値を 図 3 に示します。RFとXGBoostでは、LNRが最も重要性を示し、LODDSもかなりの重要性を示しました。しかし、NNモデルでは、LODDSはpNやLNRと比較して優れた予測能力を示しました。3つの機械学習アプローチを組み合わせた結果を考慮すると、LODDSシステムはSRCC患者のLNステータスを評価するのに最適なシステムであると結論付けています。
ML モデルのパフォーマンス
表4および図4A-Cに示すように、3つのモデルはすべて予後を効果的に予測することができ、テストデータセットでは3つのモデルのAUCは0.777から0.851の範囲でした(XGBoost:AUC = 0.820、95%CI = 0.789-0.851;RF:AUC = 0.819、95%CI = 0.788-0.850;NN: AUC = 0.809, 95% CI = 0.777-0.841)。XGBoost、RF、および NN モデルは、高い特異度 (0.82、0.825、0.815) と精度 (0.762、0.763、0.757) を示しました。検量線を図5D-Fに示します。
競争リスクモデルの構築と検証
MLモデルでは競合するリスク要因の影響が考慮されていなかったため、競合するリスクモデルを構築して、予測能力の点で最も優れたパフォーマンスを発揮するLNシステムをさらに特定しました。がん特異的生存期間(CSS)はがんによる死亡を表し、全生存期間(OSS)は他の原因による死亡を説明し、競合するリスクイベントとして機能します。単変量および多変量競合リスクモデルを使用して、トレーニングコホートにおけるCSSの予測因子を分析しました。単変量競合リスクモデルでは、CSSの予測因子には性別、年齢、人種、婚姻状況、AJCC病期分類、TNM病期分類、腫瘍サイズ、LNR分類、LODDS分類、CEAレベル、患者が放射線療法を受けたか化学療法を受けたか、および原発腫瘍の位置が含まれていたことが示された。最後に、多変量競合リスク解析、T型分類、N型分類、M型分類、LODDS分類、および原発腫瘍の位置が、結腸直腸SRCC患者の5つの独立した予後マーカーとして同定された。単変量および多変量競合リスク分析の結果を 表5に示し、独立したリスク因子に対応する累積発生率関数(CIF)曲線を 図5に示します。5つの有意変数(T病期分類、N病期分類、M病期分類、LODDS分類、および原発腫瘍の位置)に基づいて、予後ノモグラムを作成した(図6A)。その結果、pNと比較して、LODDSはより高いウェイトを示すことがわかりました。この知見は、これまでの結果と一致しており、LODDSシステムがSRCC患者のLNステータスを評価するのに最適なシステムであることを示唆しています。
モデルの精度を評価するために、検量線を作成しました(図6B-D)。その結果、このモデルは、1年、3年、および5年での患者の全生存期間の予測において良好に機能したことが示されました。曲線を45°のラインにフィットさせることで、モデルの強い一貫性が示されています。ノモグラムのROC曲線評価結果(図5E-G)は、1年、3年、5年後の予測の曲線下面積(AUC)が0.75より大きいことを示しました。これらの結果は、3年と5年の予測曲線が有意な利益を示したことを示唆しており、ノモグラムが貴重な臨床応用と参照値を持っていることを示しています。
図1:SEERデータベースでのスクリーニングプロセスを示すフロー図。 私たちの包含基準と除外基準を通じて、私たちは成功裏にRに基づく分析のその後のシリーズのためにSEERデータベースから結腸直腸癌患者を選択しました 。
図2:トレーニングコホートにおけるLNR、LODDS、およびpN病期分類とCSSとの関連。 この図は、(A)LNR、(B)LODDS、および(C)pN病期分類の多変量Cox回帰分析結果を、他の独立した予後因子とともに評価したものです。分析には、ハザード比(HR)と95%信頼区間(CI)が含まれます。この結果は、LNR、LODDS、およびpNの状態が、SRCC患者におけるがん特異的生存の有意な予後因子であり、すべてのHR値が統計的有意性(p < 0.05)を示していることを示している。*p < 0.05、**p < 0.01、***p < 0.001。エラーバーは95%CIを表します。 この図の拡大版を表示するには、ここをクリックしてください。
図3:変数の相対的な重要度(A) XGBoostモデル、 (B) RFモデル、 (C) NNモデル。この図は、変数の相対的な重要度を評価します。XGBoost モデルと RF モデルでは、LNR が最も重要性を示し、LODDS もかなりの重要性を示しました。一方、NNモデルでは、LODDSはpNやLNRと比較して優れた予測能力を示しました。3 つのモデルを組み合わせた結果に基づいて、LODDS システムは SRCC 患者の LN 状態を評価するのに最も効果的であることが示唆されています。 この図の拡大版を表示するには、ここをクリックしてください。
図4:MLモデル、XGBoost、およびeXtremeグラディエントブースティングのROC曲線と検量線。 (A、D)トレーニングコホート、(B、E)検証コホート、(C、F)外部検証コホート。曲線下面積 (AUC) の値が 1 に近いほど、モデルの分類パフォーマンスが優れていることを示します。エラーバーは、実際の事象が発生する予測確率の95%信頼区間を表します。 この図の拡大版を表示するには、ここをクリックしてください。
図5:結腸直腸SRCCの患者の特性に応じた死亡の累積発生率推定値。 サブグループの CIF。グレイのテストが適用されました。 この図の拡大版を表示するには、ここをクリックしてください。
図6:結腸直腸SRCC患者におけるCSSのノモグラムの開発と検証(A)結腸直腸SRCC患者の1年、3年、および5年のがん特異的生存確率を予測する競合リスクノモグラム。(B)トレーニングコホート、(C)検証コホート、および(D)外部検証コホートにおける1年、3年、5年のがん特異的生存を予測するためのノモグラムの検量線。(E) トレーニング コホート、(F) 検証コホート、および (G) 外部検証コホートにおける 1 年、3 年、および 5 年のがん特異的生存を予測するための受信者操作特性曲線。この図の拡大版を表示するには、ここをクリックしてください。
表1:結腸直腸SRCC患者の臨床的特徴。この表をダウンロードするには、ここをクリックしてください。
表2:トレーニングコホートにおけるCSSの単変量Cox回帰分析。この表をダウンロードするには、ここをクリックしてください。
表3:3つのリンパ節の病期分類システムの予測性能。この表をダウンロードするには、ここをクリックしてください。
表4:検証コホートと外部検証コホートのモデルの予測性能。この表をダウンロードするには、ここをクリックしてください。
表5:トレーニングコホートにおける結腸直腸SRCCのがん特異的死亡率に関する単変量および多変量競合リスク分析。この表をダウンロードするには、ここをクリックしてください。
結腸直腸癌(CRC)SRCCは、予後不良の結腸直腸癌のまれで特別なサブタイプです。したがって、SRCC患者の予後には、より一層の注意を払う必要があります。SRCC患者の正確な生存予測は、患者の予後を判断し、個別の治療決定を下すために重要です。本研究では、SRCC患者における臨床的特徴と予後との関連を検討し、SEERデータベースからSRCC患者に最適なLN病期分類システムを特定した。私たちの知る限り、これは、機械学習と競合するリスク分析方法を包括的に使用して結腸直腸SRCC患者に適したLNシステムを決定し、予後予測のためのノモグラムを構築するための最初の研究です。
CRC患者における転移性LNの数は、予後と再発の重要な指標です。正確なLN病期分類は、SRCC患者の治療戦略と予後を決定する上で重要な役割を果たします。LNRおよびLODDSは、GCへのLNの関与を評価し、病期分類システムを改善し、より正確な予後情報を提供するために使用される代替方法である10,13。SRCC患者におけるLODDS、LNR、およびpN病期分類とCSSとの相関関係をSEERデータベースを用いて明らかにした。これら3つのLNシステム(LNR、LODDS、PN)の予測能力を、AUC、AIC、BIC、Cインデックスを用いて比較しました。しかし、それらの違いはごくわずかでした。そこで、Xgboost、RF、NNの3つの機械学習手法を用いて、最適なLNシステムとして最も重要な特徴を選定しました。3つの方法を組み合わせた結果に基づいて、LODDSを適切なLNシステムとして定義しました。
ただし、OSS は CSS 患者の予後に影響を与える競合するリスク イベントです。Cox回帰法を使用して機械学習モデルに含める変数をスクリーニングするプロセスでは、OSSの影響が考慮されていなかったため、リスク比の評価が不正確になる可能性があります12。そこで、SRCC患者に最適なLN評価システムをさらに決定するために、競合するリスクモデルを構築しました。その結果、LODDS病期分類システムは、pNシステムと比較してより正確な予後情報を提供することが改めて確認されました。追跡期間中、2409人の患者のうち、1339人(56%)がCSSで死亡し、464人(19%)がOSSで死亡しました。さらに、1年、3年、5年でのがん特異的死亡率を予測するための競合リスクチャートも作成した。このモデルは、結腸直腸SRCC患者を対象とした臨床研究に大きな意味を持つと考えています。米国がん合同委員会は、すべての組織型大腸がんの病期分類システムとしてTNMシステムを推奨していますが、主に結腸直腸腺がんの病期分類に使用されます。AJCC NステージはTLNによって制限されていますが、LNRはNLN13,14,15,16の影響を考慮していません。レポートによると、LODDS は TLN の影響をあまり受けず、NLN10,17 の数を考慮しています。Scarinciらは、LODDSがLNRおよびpN病期分類よりもCRC患者のOSをよりよく予測することを示し、将来の研究ではさまざまなCRCサブタイプにおけるその役割を検証する必要があることを示唆しました18。この研究では、LODDSが結腸直腸SRCCのCSSに有意な予後予測効果をもたらすことがわかりました。したがって、LODDS は、結腸直腸 SRCC 患者のリンパ節郭清と予後を評価するための貴重なツールになる可能性があります。LODDSの最適なしきい値はまだ確立されていませんが、最も信頼性の高いLNステージングシステムであることが証明されています。LODDSへの注目が高まるにつれ、近い将来、臨床現場で広く認知されるようになると一般に考えられています。
私たちの研究では、原発腫瘍の位置が CSS の重要な予測因子であり、直腸 SRCC の予後が著しく不良であることがわかり、これは以前の研究と一致しています 12,19,20。直腸SRCCは、独自の臨床的、病理学的、および分子的特徴を有する可能性があり21,22、さらなる研究が必要である。予測モデルから導き出されたチャートは、臨床上の意思決定と患者カウンセリングのための重要かつ効果的なツールです。私たちの知る限り、この研究は、ML モデルと競合するリスク モデルを統合して、SRCC 患者に最適な LN 病期分類システムを探求した最初の研究です。SRCC患者の予後を予測するために、3つのMLモデルを開発し、検証しました。テストデータセットでは、XGBoost、RF、および NN モデルは、AUC 値と対応するメトリクスに基づいて、良好な予後予測パフォーマンスを示しました。したがって、ML モデルは、予後を予測することにより、SRCC 患者の治療決定を支援できます。さらに、比例ハザードモデルに基づいて競合するリスクチャートを作成し、結腸直腸SRCCの予測因子を分析し、その中でのLODDSの役割を評価しました。Cインデックスと検量線を使用して、ノモグラムの予測性能を評価しました。このチャートには、腫瘍の原発部位やLODDSのグループ化など、一般的な臨床変数が表示されていました。さらに、本研究で構築したノモグラムは、大腸SRCC患者における1年、3年、5年のCSSを予測する有効な方法である。このツールは、臨床医が各結腸直腸SRCC患者に対して正確で徹底的かつタイムリーな予後評価を行うのを支援し、彼らが個別の治療計画を策定することを可能にします23。
最後に、この研究にはいくつかの制限があります。まず、この研究に参加した患者は2004年から2015年の間に診断されたため、追跡期間は比較的短かった。追跡期間を長くすることで、モデル予測の精度が向上すると期待しています。第二に、ここで使用される研究デザインは遡及的であり、SEERデータベースから取得したデータに依存しているため、いくつかの固有のバイアスが生じる可能性があります。転移性LNの位置など、一部の情報は記録されませんでした。最後に、この研究の患者の大多数は白人であったため、これらの知見を確認し強化するためには、多様な集団を対象とした広範な研究が必要でした。
結論
この研究では、LODDSが結腸直腸SRCCの強力な予後予測能力を示すことがわかりました。この基盤に基づいて、結腸直腸SRCC患者の1年、3年、および5年間隔での全生存率を予測するための競合リスクモデルに基づくノモグラムを開発しました。一連の評価と内部検証の結果、ノモグラムは臨床への適用性と価値が高く評価され、臨床医が治療の意思決定を行う際のガイダンスとなっています。さらに、3つのMLモデルを構築しました。これらのMLアプローチは、SRCCの予後予測機能を強化し、医師がMLをどのように活用して治療とフォローアップ戦略を最適化できるかを理解するのに役立つ可能性を秘めています。
著者には、開示すべき金銭的な利益相反はありません。
何一つ
Name | Company | Catalog Number | Comments |
SEER database | National Cancer institiute at NIH | ||
X-tile software | Yale school of medicine | ||
R-studio | Posit |
このJoVE論文のテキスト又は図を再利用するための許可を申請します
許可を申請This article has been published
Video Coming Soon
Copyright © 2023 MyJoVE Corporation. All rights reserved