Expected versus observed effect sizes for survival endpoints in phase 3 oncology trials.
研究背景
超半数随机III期肿瘤试验未达主要终点,或因设计试验时效应量选择不当。研究者系统回顾2023年十大顶级医学期刊上的III期肿瘤试验,探讨生存终点实际与预期效应量差异。
方法速览
通过期刊网站搜索引擎提取主要生存终点信息,最终纳入111项试验,比较预期和观察到的危险比(HR)评估效应量差异。
主要发现
- 预期效应量普遍被高估:111项试验中82项主要生存终点观察到的HR弱于预期,平均预期HR为0.66,实际为0.72(p = 0.0035),表明试验设计可能因高估效应量而缺乏统计功效。
- 不同影响因子期刊有差异:影响因子较低的五家期刊中70.2%的效应量弱于预期,高影响因子期刊仅39.0%,可能因高影响因子期刊倾向发表阳性试验。
- 生存终点类型影响不大:无论无进展生存期(PFS)还是总生存期(OS)终点,效应量高估普遍存在,63.0%的OS终点和50.8%的PFS终点报告的HR弱于预期。
- 样本量规划有挑战:传统点估计法有风险,建议基于置信区间下限或半宽度计算样本量,但会增加成本和招募时间。
总结展望
本研究首次系统评估近期III期肿瘤试验效应量高估问题,揭示期刊差异,提出样本量规划改进方法,助于提高未来试验成功率。但研究有局限性,仅涵盖2023年特定期刊试验,未考虑其他因素对结果的影响。不过,仍为优化试验设计提供重要参考。