2022年5月下旬国产新冠口服药VV116与辉瑞口服药的头对头三期临床试验宣布成功,不过具体数据并未公布。隔了半年,该试验终于发表于《新英格兰医学杂志》。
我们当然要赞赏国内药企与科研人员将国产新冠药物试验结果公布,并且发表在受众更广的顶级国际医学期刊上。毕竟在新闻稿里宣称重大突破的国产新冠药很多,但在国内疫情如火如荼之际,有透明、公开、完善数据,能让人放心用,有效救治感染者的国产药却不多。可是在顶级期刊上发表论文与药物实际有效却并不对等。
例如瑞德西韦最早在中国做的新冠三期临床试验显示无效,后来在国外更细致划分感染者病情的试验里显示有效。这些结果都发表在《新英格兰医学杂志》上。上述试验终点是临床症状改善,而后续的研究进一步证实如果用在早期,瑞德西韦也能有效降低重症、死亡风险。
因此,我们在药物实践时,不能仅看有没有文章发表在顶级期刊上,更要看具体发表的内容是什么,也就是药物表现出来的有效性到底如何。而一个药物的有效性确认也未必是一篇文章就一锤定音。特别是新冠这样出来不到三年又几经重大突变的病毒,药物有效性的验证、思考会是不断渐进、延续的。
昨天VV116论文一经发表,中文解读是相比paxlovid取得了“非劣性”,一些媒体报道更是号称媲美辉瑞口服药。可研读当初的新闻稿和如今的论文,却不难发现:很难判断这个所谓的试验成功,是否意味着VV116真的有效。
1.VV116“非劣性”是指什么?
根据半年前的新闻稿,头对头三期临床试验的主要试验终点是“至症状出现持续性缓解的时间”。就是使用VV116与paxlovid的人,比较从开始服药到症状有好转的时间。根据过去的新闻稿,在实际招募822人的三期试验里,VV116组出现症状缓解的时间短于paxlovid,达到了统计学上的显著。还提到“至临床症状持续消失的时间”以及“首次核酸检测转阴的时间”上,VV116比paxlovid在数字上更优的倾向。
而《新英格兰医学杂志》的论文,终于让我们能仔细看一下这些“更优”到底是如何优。主要终点,症状持续缓解时间是11个新冠感染症状,从0-3打分(总分范围0-33),服药后总评分降到在0-1且维持两天所需的时间。
如果看所有受试者(还是新闻稿中提到的822人),VV116的至症状缓解时间中位4天,paxlovid是5天,这就是非劣性的主要证据。但两个组风险比的95%置信区间是1.02-1.36,下限接近1(即无区别)。因此,新闻稿里说VV116症状缓解时间短于paxlovid,实际只能说是不劣于,不能称为优于。这也是为什么药企新闻稿要谨慎解读,利益冲突四字不是盖的。
另一些分析也让我更倾向说在症状缓解时间上,二者半斤八两,说VV116更优不合适。那就是符合试验流程,在5天内开始用药的受试者,两组症状缓解所需时间都是中位5天:
5天内开始用药的受试者,两组症状缓解所需时间都是中位5天
理论上来说,抗病毒药越早服用越可能获得更好的效果。可是在这里,包括了更晚用VV116的人,症状缓解平均需要4天,只看更早使用的反而是5天。可见这四五天本身的差距很小,也不是一个稳定的差异。
而之前新闻稿里提到的核酸转阴时间更优,在公布的论文里,两组受试者核酸转阴时间上没有差别。
从结果来看说VV116试验成功问题不大——毕竟主要终点达到了非劣性标准。可很难说这个“成功”证明了VV116是有效性的新冠抗病毒药。为什么?因为这几个终点都不是我们最需要的新冠治疗终点。
2.我们要什么样的抗病毒药?
药物是要解决具体的医疗需要的,一个新药应瞄准未得到满足的医疗需要。新冠抗病毒药也是一样,不是说设个8个10个试验终点,逮上一个是一个,而是要仔细考虑现实中需要一个起什么作用的抗病毒药,然后我们来验证这个药可不可以做到这个或这些作用。
新冠抗病毒药最关键的作用应该是降低使用者重症或死亡的风险。这才是从健康角度看,新冠这个疾病最大的威胁,也是现在尚未满足的医疗需要所在。
从发表的论文以及对试验的解读来看,VV116本来是想比较重症风险降低。可最后招募的患者没有遇到转重症的,只能改为症状缓解。如今接种疫苗确实大幅降低了重症、死亡风险,奥密克戎本身致病力又更低一些。这种现实也让不少专家们开始对临床试验终点改为症状缓解、核酸转阴等指标表示接受。大概再要求在招募人数终归有限的临床试验里证明降低重症风险,有点强人所难。
可新冠真的成感冒了,没有转重症的人了吗?我们要看到高龄、有基础疾病的老人,即便是突破性感染仍然有不能忽视的重症风险。而且仍然有人还没接种过疫苗。有的免疫抑制严重的人,接种了可能作用也有限。
恰恰在VV116的结果发表在《新英格兰医学杂志》的同时,我们看到中国很多地方的医院有很多新冠重症病人。你去问一下那些ICU门口的家属,问一下忙着联系殡仪馆的家属,问一下都开始怀疑现在遇到的奥密克戎是不是致病性增强了的一线医护人员,需要的抗病毒药,是应该要缓解轻症症状还是降低重症风险?
对于绝大部分人来说新冠就是一个自限性疾病,症状会自然好转。为什么要以防重症死亡为目标?因为我们要帮助那些非常不幸,感染后新冠成了不自限的人。把目标定成让自限更快些,不是不可以,只是不那么切合需求。
因此,抗病毒药的着眼点,应该还是降低重症、死亡,帮助这些人群,让新冠的整体健康威胁进一步降低。
3.头对头,找对“对的点”了吗?
VV116做的是头对头试验,就是和新冠抗病毒药如今最成功的paxlovid对标。不少人一看头对头就来劲,和现在最好的抗病毒药比,如果更好,那是比最好的更好,就是新的最好;如果非劣,也是和最好的比不差,就是并列最好。
可头对头也要看对标的点在哪里。比如国足选拔队员,说标准是能和梅西、C罗“头对头”取胜,这很好,志向远大。但比啥呢?比乒乓球。要是这么做头对头,你就是一个单挑梅西、C罗俩,咱也不敢对国足有太大希望啊,是不?
paxlovid的关键疗效(也是唯一被严格验证的疗效)是把高危人群住院死亡风险降低了近90%。VV116的头对头试验里,没有人需要住院,这对受试者来说是好事,但对我们判断药物有效性来说却是非常不幸。paxlovid倒没关系,它的降低重症风险已经经过三期临床试验、奥密克戎时期真实世界研究验证了。可VV116不一样。在paxlovid真正起作用的点上,完全不知道VV116是否是真的非劣性。
我们可以假设paxlovid让试验里本来可能需要住院的情况消失,VV116也一样。但同样有可能是病人太少,或重症风险不够高,最后本来就一个都不会需要住院。这就是没有安慰剂组的危害。光想着头对头,对标的还不是别家的主要作用,没有安慰剂做基线,很难解读结果。
更为关键的是,VV116选择的试验终点——获得症状持续缓解的时间,没有安慰剂组,真的很难判断实际是否有效。VV116头对头非劣性有意义的前提是,对标的paxlovid加速了新冠症状获得持续缓解的进程。
可paxlovid没有做过VV116试验里那种终点的试验,唯一有相似性的是在低危人群里做的EPIC-SR三期试验,那个试验主要终点是受试者自述所有新冠症状持续缓解4天。问题是paxlovid在那个试验里失败了,报告症状持续4天缓解,paxlovid与安慰剂没有区别。
这种情况下,说11项症状评分,出现持续缓解两天的时间,VV116和paxlovid一样或有少一天的趋势,能得出什么结论?一定比什么药都不吃好?paxlovid有没有比安慰剂好我们都不知道啊。
其实《新英格兰医学杂志》的论文里都提到,试验设计时估计奥密克戎症状缓解中位时间是5.5天。说得不好听一点,拿个糖丸和paxlovid做头对头,按这个试验标准,说不定也是非劣性。是不是也要说糖丸媲美paxlovid?
4. “媲美”背后的致命缺陷
仔细看《新英格兰医学杂志》的论文,VV116做出这样一个意义有限,甚至无法解读的试验并不让人意外。
虽然VV116的试验里37.7%是60岁以上老人,可整个试验只有24.3%的人未接种疫苗,44.9%的人接种过增强针,30.9%的人完成了基础免疫。疫苗接种能大幅降低重症风险,这么高比例的人接种过疫苗,早就不是重症风险高的人群,自然让受试者中观察到重症的可能性大幅降低。
该试验是在4-5月的上海进行,如果参考上海三月中下旬的疫苗接种率:
上海3月疫苗接种率
受试者的疫苗接种率(75.8%)与增强针接种率(30.9%),不比全上海人群差。可在当时的上海,明明有大量80岁以上老人一针疫苗都没打,70岁以上老人这个比例也不低。为何不更侧重招募这些更高危人群,只能说让人遗憾。
此外,临床试验终点改为症状总评分降低到1或0,可受试者开始服药时的症状总评分是多少呢?中位3分。是的,总评分的理论范围是0-33,但受试者们的起点是3,目标是到1或0。这个起点评分很符合92%的受试者是轻症的特征,可既然以症状缓解为主要目标,如此小的症状区分空间,岂不是更难判断药物的作用?
一个试验,看转重症风险,招募的受试者重症风险起点不高,看症状改善,受试者症状起点很轻。也多亏没有安慰剂,否则搞不好真是媲美糖丸。
该试验的其它缺陷,比如虽是多中心,实际只是上海一地的七家医院;由于模拟paxlovid的安慰剂药丸未能及时制成,试验是单盲,受试者知道自己吃的是什么;症状评分本身具有主观性,等等。只能说是不算理想,最致命的缺陷,还是以下几个:
偏离了paxlovid获得证实的药物疗效,让“头对头”失去意义
没有安慰剂组无法评估所谓症状改善是否为真
招募的受试者特征不仅让原定的评估重症不可行,即便是后采取的症状改善,评估空间、意义都很有限
而更让人遗憾的是,这些致命缺陷完全是可以避免的。在2022年初,奥密克戎横扫全球时,我们就已经知道病毒致病力减弱,疫苗接种人群重症率低。2021年12月,辉瑞也公布了paxlovid在低危人群三期临床试验EPIC-SR的期中报告,提到在症状持续改善比例上与安慰剂没有区别。EPIC-SR的人群是接种过疫苗但有至少一个重症风险因子,或没有重症风险因子但未接种过疫苗。
VV116的试验是在2022年4-5月做的,上述信息早已是公开的知识范畴。为什么会设计一个招募人群更像EPIC-SR(低危人群),却最初选择终点参考EPIC-HR(高危人群)的试验?既然实质已经是paxlovid失败的EPIC-SR试验人群,终点也改为与EPIC-SR类似,又岂能再不加入安慰剂组?
5.VV116到底有没有用?
被一些媒体鼓吹为媲美paxlovid的VV116头对头试验,里面真正可能可以微弱佐证VV116或许有用的证据大概只有核酸检测转阴时间这个次级终点。
最早新闻稿是说VV116转阴比paxlovid快,可最终的论文里二者是一样的。且不管新闻稿误导的这事。我们看paxlovid高危人群三期临床试验里的载毒量变化:
paxlovid三期临床试验载毒量比安慰剂载毒量下降
用药后最初几天载毒量下降比安慰剂组快。VV116试验是看核酸转阴:
VV116与paxlovid核酸转阴相似
第五天和第七天,核酸转阴比例两个药相似,理论上勉强可以推断载毒量下降上,在paxlovid低于安慰剂组这两天,二者也类似(载毒量是基于所有受试者,与转阴比例还是有点不同)。
新冠抗病毒药都是通过抑制病毒复制起作用,paxlovid在临床试验里证明了自己降低了载毒量,同时降低了重症风险。如果VV116降低载毒量作用相近,勉强也能让推导药物有效获得一些支持。
但这个推断有很多缺陷,非常勉强。
首先,前文已提到核酸转阴比例和paxlovid试验里的载毒量不完全一样。很多研究都显示即使一个感染者完全康复了也可能继续出现核酸检测阳性——可能有些残余的病毒尸体。我们也不确定paxlovid自己的三期临床试验里核酸检测转阴就一定比安慰剂组更早,毕竟第14天时和安慰剂组载毒量趋同。
其次,载毒量变化或核酸转阴,能否对应实际治疗效果还难说。默克口服药也是能看到载毒量下降:
默克口服药同样能降低载毒量
但最终三期临床试验的结果里,paxlovid降低重症风险的程度明显高于默克口服药。
再者,paxlovid停药后复阳的报道也增加了核酸转阴推断药效的可靠性。
我们可以想办法找一切理由,给一个药贴上为什可能有效,也可以在打上各种“媲美”、“更优”等标签。但我们真正需要的是靠谱证据,不是多余的溢美之词。
支持VV116有效的关键证据,在5月三期临床试验成功的新闻稿报道出来后以及论文发表在《新英格兰医学杂志》后,和这些出来前其实差不了太多。那就是这个药本质上是瑞德西韦的口服版,瑞德西韦验证了自己的有效性,这个也有可能有效。
从国内大量的新冠抗病毒药报道来说,这种推断的市场接受度很高。例如paxlovid是3CL抑制剂,如今好几个3CL抑制剂就被说得像已经成功一样。可问题是这些虽然是同靶点的类似药物,但毕竟不是同样的仿制药。这种推断存在不低的风险。VV116也是同样的问题。
VV116的头对头试验确实成功了,可试验一开始的成功标准就没有回答这个药是否有效以及实际疗效到底如何。比阴性结果更令人失望的,恰恰是这种缺乏实际意义的阳性结果。
同样令人失望的是,该试验其实半年前就已经完成。而如今正处于疫情暴发下的中国,有的只是一个个号称国际领先的国产新冠特效药,国人却连最老土的退烧药都一片难求。
参考资料:
https://www.biospace.com/article/releases/vv116-versus-paxlovid-phase-iii-registrational-trial-for-early-treatment-of-mild-to-moderate-covid-19-in-high-risk-patients-reaches-primary-endpoint/?s=63
https://www.nejm.org/doi/full/10.1056/NEJMoa2208822
https://www.nejm.org/doi/full/10.1056/NEJMoa2118542
https://www.pfizer.com/news/press-release/press-release-detail/pfizer-announces-additional-phase-23-study-results
https://www.pfizer.com/news/press-release/press-release-detail/pfizer-reports-additional-data-paxlovidtm-supporting
https://www.fda.gov/media/154472/download