Method Article
本研究使用机器学习模型和竞争风险分析评估结直肠印戒细胞癌患者的预后系统。与 pN 分期相比,它将阳性淋巴结的对数几率确定为更好的预测因子,展示了强大的预测性能,并通过强大的生存预测工具帮助临床决策。
淋巴结状态是患者的关键预后预测指标;然而,结直肠印戒细胞癌 (SRCC) 的预后受到的关注有限。本研究使用机器学习模型 (随机森林、XGBoost 和神经网络) 以及竞争风险模型调查了 SRCC 患者阳性淋巴结 (LODDS) 、淋巴结比值 (LNR) 和 pN 分期的对数预测能力。相关数据从监测、流行病学和最终结果 (SEER) 数据库中提取。对于机器学习模型,通过单变量和多变量 Cox 回归分析确定癌症特异性生存期 (CSS) 的预后因素,然后应用 XGBoost 、 RF 和 NN 三种机器学习方法来确定最佳淋巴结分期系统。在竞争风险模型中,采用单因素和多因素竞争风险分析来确定预后因素,并构建列线图来预测 SRCC 患者的预后。采用受试者工作特征曲线下面积 (AUC-ROC) 和校准曲线来评估模型的性能。本研究共纳入 2,409 例 SRCC 患者。为了验证该模型的有效性,包括另外 15,122 名结直肠癌患者队列,不包括 SRCC 病例,用于外部验证。机器学习模型和竞争风险列线图在预测生存结果方面都表现出强大的表现。与 pN 分期相比,LODDS 分期系统表现出卓越的预后能力。经评估,机器学习模型和竞争风险模型取得了出色的预测性能,其特点是具有良好的区分、校准和可解释性。我们的研究结果可能有助于为患者的临床决策提供信息。
结直肠癌 (CRC) 是全球第三大最常见的恶性肿瘤 1,2,3。印戒细胞癌 (SRCC) 是 CRC 的一种罕见亚型,约占病例的 1%,其特征是丰富的细胞内粘蛋白取代细胞核 1,2,4。SRCC 通常与年轻患者相关,女性患病率较高,诊断时肿瘤分期已进入晚期。与结直肠腺癌相比,SRCC 的分化较差,远处转移的风险更高,5 年生存率仅为 12%-20%5,6。为 SRCC 开发准确有效的预后模型对于优化治疗策略和改善临床结果至关重要。
本研究旨在使用先进的统计方法为 SRCC 患者构建一个稳健的预后模型,包括机器学习 (ML) 和竞争风险模型。这些方法可以适应临床数据中的复杂关系,提供个性化的风险评估,并在预测准确性方面超越传统方法。机器学习模型(如 Random Forest、XGBoost 和 Neural Networks)在处理高维数据和识别复杂模式方面表现出色。研究表明,AI 模型可有效预测结直肠癌的生存结果,凸显了 ML 在临床应用中的潜力 7,8。作为 ML 的补充,竞争风险模型解决了多种事件类型,例如癌症特异性死亡率与其他死亡原因,以改进生存分析。与 Kaplan-Meier 估计器等传统方法不同,竞争风险模型在存在竞争风险的情况下准确估计事件的边际概率,从而提供更精确的生存评估8。集成 ML 和竞争风险分析可增强预测性能,为 SRCC 9,10,11 中的个性化预后工具提供强大的框架。
淋巴结转移显着影响 CRC 患者的预后和复发。虽然 TNM 分类中的 N 期评估至关重要,但淋巴结检查不充分(48%-63% 的病例报告)可能导致疾病被低估。为了解决这个问题,已经引入了替代方法,如淋巴结比率 (LNR) 和阳性淋巴结的对数几率 (LODDS)。LNR 是阳性淋巴结 (PLN) 与总淋巴结 (TLN) 的比率,受 TLN 计数的影响较小,是 CRC 的预后因素。LODDS 是 PLN 与负淋巴结 (NLN) 的对数比,在胃 SRCC 和结直肠癌中均显示出卓越的预测能力10,11。机器学习已越来越多地应用于肿瘤学,模型改进了各种癌症(包括乳腺癌、前列腺癌和肺癌)的风险分层和预后预测 12,13,14。然而,它在结直肠 SRCC 中的应用仍然有限。
本研究旨在通过将 LODDS 与 ML 和竞争风险模型集成来弥合这一差距,以创建一个全面的预后工具。通过评估 LODDS 的预后价值并利用先进的预测技术,本研究旨在加强临床决策并改善 SRCC 患者的预后。
本研究不涉及伦理批准和参与同意。本研究中使用的数据是从数据库中获得的。我们纳入了 2004年至 2015年诊断为结直肠印戒细胞癌的患者,以及其他类型的结直肠癌患者。排除标准包括生存时间少于 1 个月的患者、临床病理信息不完整的患者以及死因不明或不明的病例。
1. 数据采集
2. ML 模型开发和验证
3. 竞争风险模型的开发和验证
患者特征
本研究侧重于诊断为结直肠 SRCC 的患者,使用来自 2004 年至 2015 年的 SEER 数据库的数据。排除标准包括生存时间少于 1 个月的患者、临床病理信息不完整的患者以及死因不明或不明的病例。共有 2409 例符合纳入标准的结直肠 SRCC 患者被随机分为训练队列 (N = 1686) 和验证队列 (N = 723)。使用 R 软件分析训练和验证队列的人口统计学和临床参数,如 表 1 所示。在纳入的所有患者中,大多数年龄在 60 岁以上,男性和女性患者的数量相似。大多数患者是白人。超过一半的患者 (56%) 已婚。大多数肿瘤分级为 III-IV 级 (76%)。大多数患者 (82%) 的肿瘤大小大于 3.5 cm,大多数患者属于 LODDS1 组 (42%)。在整个队列中,很大比例的患者 (53%) 接受了化疗。原发性肿瘤主要位于右结肠 (67%)。随机分组后,两组之间的基线特征在统计学上无显著差异。
确定 ML 模型中包含的预后临床因素
我们首先使用 Cox 回归分析筛选了要包含在机器学习模型中的重要变量。单因素 Cox 回归结果显示,生存时间与某些临床变量显著相关,包括性别、年龄、种族、婚姻状况、AJCC 分期、pT 分期、pN 分期、pM 分期、肿瘤大小、CEA 水平、LNR 分类、LODDS 分类,以及患者是否接受放疗或化疗(表2).值得注意的是,LNR 、 LODDS 和 pN 分期均表现出具有统计学意义的风险比 (HR),表明这三个 LN 分期系统与预后相关。随后进行多变量 Cox 回归分析,以进一步确定 SRCC 患者 pN 分期、 LODDS 、 LNR 和 CSS 之间的关联。结果表明,LODDS 、 LNR 和 pN 状态显着影响 SRCC 患者的 CSS (图2)。
LN 系统的比较
三个 LN 系统的预测预后能力在训练、验证和外部验证队列中相似(在步骤 1.4 中选择的环细胞癌以外的结直肠癌样本。 表 3)。在训练队列中,LNR 、 LODDS 和 pN 的 C 指数分别为 0.309 、 0.308 和 0.337,而在验证队列中,C 指数分别为 0.288 、 0.279 和 0.319。在外部验证队列中,LNR 、 LODDS 和 pN 的 C 指数分别为 0.419 、 0.420 和 0.424。此外,训练队列中每个系统的 AIC 值为 12667.56、12670.57 和 12731.89,在验证队列中,它们分别为 4575.36、4559.13 和 4613.20。在外部验证队列中,每个系统的 AIC 值如下: LODDS 为 106554.68,LNR 为 106581.85,pN 分期为 106915.45。这些发现表明,三个系统之间的区分质量差异很小。因此,我们利用机器学习方法(RF、XGBoost 和 NN)进一步确定预测能力方面的最佳 LN 系统。该分析包括在单变量 Cox 回归中具有显著意义的变量和至少一个用于构建机器学习模型的多变量模型(pN、LODDS 或 LNR),包括 pN、pT、pM、年龄、种族、LNR 分类、LODDS 分类,以及患者是否接受放疗或化疗。
我们使用训练数据集构建了 RF、XGBoost 和 NN 模型。每个变量的重要性值如图 3 所示。在 RF 和 XGBoost 中,LNR 表现出最高的重要性,而 LODDS 也表现出相当的重要性。然而,在 NN 模型中,与 pN 和 LNR 相比,LODDS 显示出更好的预测能力。考虑到三种机器学习方法的综合结果,我们得出结论,LODDS 系统可能是评估 SRCC 患者 LN 状态的最佳系统。
ML 模型的性能
如表 4 和图 4A-C 所示,这三种模型都能够有效地预测预后,三种模型的 AUC 在测试数据集中范围为 0.777 至 0.851 (XGBoost:AUC = 0.820,95% CI =0.789-0.851;RF:AUC = 0.819,95% CI = 0.788-0.850;NN:AUC = 0.809,95% CI = 0.777-0.841)。XGBoost 、 RF 和 NN 模型显示出很高的特异性 (0.82 、 0.825 、 0.815) 和准确性 (0.762 、 0.763 、 0.757)。校准曲线如图 5D-F 所示。
竞争风险模型的构建与验证
鉴于 ML 模型没有考虑竞争风险因素的影响,我们构建了一个竞争风险模型,以进一步确定在预测能力方面表现最好的 LN 系统。癌症特异性生存期 (CSS) 代表癌症导致的死亡,而总生存期 (OSS) 代表其他原因导致的死亡,是竞争性风险事件。我们使用单变量和多变量竞争风险模型来分析训练队列中 CSS 的预测因素。单因素竞争风险模型显示,CSS 的预测因素包括性别、年龄、种族、婚姻状况、AJCC 分期、TNM 分期、肿瘤大小、LNR 分类、LODDS 分类、CEA 水平、患者是否接受放疗或化疗以及原发肿瘤的位置。最后,将多变量竞争风险分析、T 分期、N 分期、M 分期、LODDS 分类和原发肿瘤位置确定为结直肠 SRCC 患者的 5 个独立预后标志物。单变量和多变量竞争风险分析的结果如 表 5 所示,独立风险因素的相应累积发生率函数 (CIF) 曲线如图 5 所示。基于五个重要变量 (T 分期、 N 分期、 M 分期、LODDS 分类和原发肿瘤的位置),我们开发了预后列线图 (图6A)。我们发现,与 pN 相比,LODDS 显示出更高的权重。这一发现与之前的结果一致,表明 LODDS 系统是评估 SRCC 患者 LN 状态的最佳系统。
为了评估模型的准确性,我们构建了校准曲线(图 6BD)。结果表明,该模型在预测患者 1 年、 3 年和 5 年的总生存期方面表现良好。曲线与 45° 线的拟合表明模型具有很强的一致性。列线图的 ROC 曲线评估结果(图 5EG)显示,预测 1 、 3 和 5 年的曲线下面积 (AUC) 大于 0.75。这些结果表明,3 年和 5 年的预测曲线显示出显着的好处,表明列线图具有有价值的临床应用和参考价值。
图 1:在 SEER 数据库中呈现筛选过程的流程图。 通过我们的纳入和排除标准,我们成功地从 SEER 数据库中选择了结直肠癌患者,用于基于 R 的后续系列分析。 请点击这里查看此图的较大版本。
图 2:LNR、LODDS 和 pN 分期与训练队列中 CSS 的关联。 该图说明了 (A) LNR 、 (B) LODDS 和 (C) pN 分期的多变量 Cox 回归分析结果,与其他独立预后因素一起评估。该分析包括风险比 (HR) 和 95% 置信区间 (CI)。结果表明,LNR 、 LODDS 和 pN 状态是 SRCC 患者癌症特异性生存的重要预后因素,所有 HR 值均显示统计学意义 (p < 0.05)。*p < 0.05,**p < 0.01,***p < 0.001。误差线表示 95% CI。 请单击此处查看此图的较大版本。
图 3:变量的相对重要性。(A) XGBoost 模型, (B) RF 模型, 以及 (C) NN 模型。此图评估变量的相对重要性。在 XGBoost 和 RF 模型中,LNR 表现出最高的重要性,LODDS 也显示出相当大的意义。相反,在 NN 模型中,与 pN 和 LNR 相比,LODDS 表现出更强的预测能力。基于三种模型的综合结果,LODDS 系统被认为是评估 SRCC 患者 LN 状态最有效的系统。 请单击此处查看此图的较大版本。
图 4:ML 模型、XGBoost 和 eXtreme 梯度提升的 ROC 曲线和校准曲线。 (A, D) 训练队列,(B, E) 验证队列,以及 (C, F) 外部验证队列。曲线下面积 (AUC) 值越接近 1,表示模型的分类性能越好。误差线表示实际事件发生的预测概率的 95% 置信区间。 请单击此处查看此图的较大版本。
图 5:根据结直肠 SRCC 患者特征的累积死亡率估计。 子组的 CIF。应用了 Gray 的测试。 请单击此处查看此图的较大版本。
图 6:结直肠 SRCC 患者 CSS 的列线图开发和验证。 (A) 预测结直肠 SRCC 患者 1 年、3 年和 5 年癌症特异性生存概率的竞争风险列线图。在 (B) 训练队列、 (C) 验证队列和 (D) 外部验证队列中预测 1 年、 3 年、 5 年癌症特异性生存率的列线图的校准曲线。用于预测 (E) 训练队列、 (F) 验证队列和 (G) 外部验证队列中 1 年、 3 年和 5 年癌症特异性生存率的受试者工作特征曲线。 请单击此处查看此图的较大版本。
表 1:结直肠 SRCC 患者的临床特征。请点击此处下载此表格。
表 2:训练队列中 CSS 的单变量 Cox 回归分析。请点击此处下载此表格。
表 3:三个淋巴结分期系统的预测性能。请点击此处下载此表格。
表 4:验证队列和外部验证队列中模型的预测性能。请点击此处下载此表格。
表 5:训练队列中结直肠 SRCC 癌症特异性死亡率的单变量和多变量竞争风险分析。请点击此处下载此表格。
结直肠癌 (CRC) SRCC 是预后不良的罕见特殊结直肠癌亚型。因此,需要更加关注 SRCC 患者的预后。SRCC 患者的准确生存预测对于确定其预后和做出个体化治疗决策至关重要。在这项研究中,我们探讨了 SRCC 患者临床特征与预后之间的关系,并从 SEER 数据库中确定了 SRCC 患者的最佳 LN 分期系统。据我们所知,这是第一项通过综合使用机器学习和竞争风险分析方法确定适合结直肠 SRCC 患者的 LN 系统并构建列线图以进行预后预测的研究。
CRC 患者转移性 LNs 的数量是预后和复发的重要指标。准确的 LN 分期在确定 SRCC 患者的治疗策略和预后方面起着关键作用。LNR 和 LODDS 是用于评估 LN 参与 GC、改进分期系统和提供更准确预后信息的替代方法10,13。我们使用 SEER 数据库揭示了 SRCC 患者 LODDS 、 LNR 和 pN 分期与 CSS 之间的相关性。使用 AUCs 、 aics 、 BICs 和 C 指数比较这三个 LN 系统 (LNR 、 LODDS 和 pN) 的预测能力。然而,它们之间的差异很小。因此,我们使用了三种机器学习方法——Xgboost、RF 和 NN——来选择最重要的特征作为最优的 LN 系统。根据三种方法的综合结果,我们将 LODDS 定义为合适的 LN 系统。
然而,OSS 是一个影响 CSS 患者预后的竞争风险事件。使用 Cox 回归方法筛选变量以包含在机器学习模型中的过程没有考虑 OSS 的影响,这可能导致对风险比的评估不准确12。因此,为了进一步确定 SRCC 患者的最佳 LN 评估系统,我们构建了一个竞争风险模型。结果再次证实,与 pN 系统相比,LODDS 分期系统提供了更准确的预后信息。随访期间,在 2409 例患者中,1339 例 (56%) 死于 CSS,464 例 (19%) 死于 OSS。此外,我们还开发了一个竞争风险图表来预测 1 年、 3 年和 5 年的癌症特异性死亡率。我们认为该模型对涉及结直肠 SRCC 患者的临床研究具有重要意义。尽管美国癌症联合委员会推荐 TNM 系统作为所有组织学类型结直肠癌的分期系统,但它主要用于结直肠腺癌的分期。AJCC N 阶段受 TLN 限制,而 LNR 不考虑 NLN13、14、15、16 的影响。报告表明,LODDS 受 TLN 的影响较小,并认为 NLN 的数量为10,17。Scarinci 等人证明,LODDS 比 LNR 和 pN 分期更能预测 CRC 患者的 OS,并建议未来的研究应验证其在不同 CRC 亚型中的作用18。在这项研究中,我们发现 LODDS 对结直肠 SRCC 中的 CSS 具有显着的预后预测作用。因此,LODDS 可能是评估结直肠 SRCC 患者淋巴结清扫和预后的宝贵工具。虽然尚未为 LODDS 建立最佳阈值,但它已被证明是最可靠的 LN 分期系统。随着对 LODDS 的日益关注,人们普遍认为,在可预见的未来,它将在临床环境中获得广泛认可。
我们的研究发现,原发肿瘤的位置是 CSS 的重要预测因素,直肠 SRCC 的预后明显较差,这与以前的研究一致 12,19,20。直肠 SRCC 可能具有独特的临床、病理和分子特征21,22,值得进一步研究。从预测模型得出的图表是临床决策和患者咨询的关键和有效工具。据我们所知,这项研究是第一个整合 ML 模型和竞争风险模型以探索 SRCC 患者最佳 LN 分期系统的研究。我们开发并验证了三种 ML 模型来预测 SRCC 患者的预后。在测试数据集中,XGBoost 、 RF 和 NN 模型根据 AUC 值和相应指标显示出良好的预后预测性能。因此,ML 模型可以通过预测预后来帮助 SRCC 患者的治疗决策。此外,我们基于比例风险模型生成了竞争风险图表,以分析结直肠 SRCC 的预测因素并评估 LODDS 在其中的作用。我们使用 C 指数和校准曲线来评估列线图的预测性能。该图表显示了常见的临床变量,例如肿瘤原发部位和 LODDS 分组。此外,我们构建的列线图是预测结直肠 SRCC 患者 1 年、3 年和 5 年 CSS 的有效方法。该工具可以帮助临床医生对每位结直肠 SRCC 患者进行准确、彻底和及时的预后评估,使他们能够制定个性化的治疗计划23。
最后,这项研究有几个局限性。首先,研究中的患者是在 2004 年至 2015 年之间被诊断出来的,导致随访期相对较短。我们预计更长的随访期将有助于提高模型预测的准确性。其次,这里使用的研究设计是回顾性的,并且依赖于从 SEER 数据库获得的数据,这可能会引入一些固有的偏差。一些信息,例如转移性 LN 的位置,没有被记录下来。最后,这项研究中的大多数患者是白人,因此需要涉及不同人群的更广泛研究来证实和加强这些发现。
结论
研究发现,LODDS 对结直肠 SRCC 表现出很强的预后预测能力。在此基础上,我们开发了一个基于竞争风险模型的列线图,以预测结直肠 SRCC 患者在 1 年、3 年和 5 年间隔的总生存率。经过一系列评估和内部验证,该列线图已显示出重要的临床适用性和价值,为临床医生的治疗决策提供了指导。此外,我们还构建了三个 ML 模型。这些 ML 方法有可能增强 SRCC 的预后预测能力,并帮助医生了解如何利用 ML 来优化治疗和随访策略。
作者没有需要披露的财务利益冲突。
没有
Name | Company | Catalog Number | Comments |
SEER database | National Cancer institiute at NIH | ||
X-tile software | Yale school of medicine | ||
R-studio | Posit |
请求许可使用此 JoVE 文章的文本或图形
请求许可This article has been published
Video Coming Soon
版权所属 © 2025 MyJoVE 公司版权所有,本公司不涉及任何医疗业务和医疗服务。