AI医疗系列三：AI大模型如何辅助临床试验患者匹配

AI医疗系列三：AI大模型如何辅助临床试验患者匹配

2024-11-10 18:32

©作者|Owen

来源|神州问学

之前的 "AI for 医疗" 专题文章，我们已经介绍了：

在这篇文章中，我们将介绍在AI如何赋能药物研发工作中的最后一步：临床试验。

图1：药物研发生产流程，图片引自[1]↓

临床试验简介

药物研发的最后一步，便是将药物大规模应用到患者体内以进行实际效果测试，这一步骤即临床试验。临床试验是一种系统性的研究，其目的是调查医药产品对人类疾病过程的影响，以证实或揭示试验药物的作用、不良反应及试验药物的吸收、分布、代谢和排泄，并最终确定试验药物的疗效与安全性。

临床试验是一项极为重要的任务，其结果直接决定了药物能否成功上市。如果临床试验无法通过，那前期所有的初筛、优化、预实验都将失去意义。

但是临床试验的结果会受到多种客观因素的影响，其中至关重要的一点是试验患者的匹配。患者的匹配是指将研究对象按照一定的标准进行分类，以挑选出最适合特定临床试验的患者。每个临床试验都会有不同的纳入标准和排除标准，患者自身的情况也需要达到一定的门槛，才可以参加。

招募合适的患者这一过程是非常耗时且困难的。这个过程需要仔细分析患者的病历，根据临床试验的纳入标准和排除标准判断患者和试验的匹配度。据统计有50%的临床试验由于招募不到合适的患者而被迫延迟，有25%的临床试验由于患者不足而完全无法开展。据估算每招募一名患者约花费6000至7500美元，成本可谓十分高昂。因此如果进行高效的临床试验-患者匹配，是药物研发中急需解决的一个难题。

传统的临床试验患者匹配方法及局限性

传统情况下，患者和试验的匹配是人工进行的。主要包含两大方向：TO B（找医生）和TO C（找患者）。早期的患者招募机构多采取线下招募的方式，即项目人员前往不同的城市、医院，乃至不同的目标科室，通过医生协助而接触目标患者。招募者会根据各个患者的特征，并参考临床试验的Inclusion Criteria、Exclusion Criteria，为临床试验挑选合适的患者。

这样的方法存在着一些难以解决的问题：

• 招募效率低：人工筛选过程耗时且效率不高，很难快速识别和招募合适的患者，这可能导致临床试验启动和完成的时间延长。

• 数据利用不充分：人工匹配的方法难以充分利用患者的历史医疗记录和其他相关信息来进行更精细化的匹配。

• 复杂性和多变性不足：临床试验可能没有考虑到患者病情的复杂性和多变性，例如患者可能同时患有多种疾病，这在传统的匹配方法中难以体现。

• 统计功效问题：由于传统匹配方法可能导致样本数量不足或样本选择存在偏差，这可能影响临床试验的统计功效，即发现实际有效治疗效果的能力。

因此，如果存在一种方法能自动, 高准确率, 其大批量的为临床试验匹配患者，便可节省大量的人力、物力，治愈更多的患者。

TrialGPT, 基于大语言模型的临床试验患者匹配方法

近年来，随着大语言模型（LLM）的发展，越来越多的人注意到了大语言模型在提高临床试验招募的效率和准确性方面的潜力。

大语言模型作为一种基于深度学习的AI技术，已经在许多领域展现出了惊人的能力，比如大语言模型为自然语言处理（NLP）领域的文本生成、文本摘要、问答系统等任务带来了颠覆性的突破，也为计算机视觉（CV）领域的文生图等多模态任务提供了新的思路。简单来说，大语言模型是一种可以理解给定的上下文，并根据上下文做出回应的生成模型。大语言模型首先在一个包含数万亿单词的大型语料库上进行预训练，训练的方式是通过给定的文本序列去预测下一个单词，从而得到基础模型（base model），如GPT-3、PaLM、LLaMA等。然后，这些基础模型可以进一步在特定的任务上进行微调，以更好地遵循人类的指示，从而得到现在被人们广泛使用的ChatGPT，Copilot等产品。还有人尝试使用具体垂直领域，如生物医疗、法律、教育，等领域的文本对基础模型进行微调以得到专用大语言模型，这些模型同样在具体领域上展示出了良好的性能。此外，大语言模型具有在推理时根据输入的prompt学习新任务的能力，即上下文学习（ICL），这可能也是大语言模型在具体领域展示良好性能的原因之一。

鉴于大语言模型的巨大潜力，已经有研究者开始探索大语言模型能否在医药临床试验中提供帮助。如近期，为了尝试大语言模型能否帮助患者和医生在海量的临床试验中找到合适的匹配，美国国立卫生研究院（NIH）的研究人员提出了一种基于大语言模型的方法，利用大语言模型进行患者-试验匹配，名为TrialGPT [2]。

图2：TrialGPT↓

TrialGPT 工作流程

TrialGPT的核心思想是利用大语言模型的生成能力和解释能力以快速的处理海量的患者信息和临床试验受试者要求。

患者信息中通常会记录每个患者具体的个人信息，如年龄、性别、疾病史等。临床试验受试者要求中则会具体的描述纳入标准（Inclusion criteria）和排除标准（Exclusion criteria）。

TrialGPT主要针对的任务是将患者分配给具体的临床试验。即，当给定一个患者时，TrialGPT会利用基础模型去理解患者的病例，并根据临床试验受试者要求中的纳入标准和排除标准为患者匹配出最适合的一些临床试验。

图3：TrialGPT 整体结构，图片引自[2]↓

在具体实现上，TrialGPT包含三个步骤：

标准级别的分类

整体流程如图2中的a所示，这一部分分类的目的是细粒度的去判断患者是否符合纳入标准和排除标准的每一个要求。

在纳入标准中的每个要求中，TrialGPT会将患者分类为：纳入，不纳入，不相关。在排除标准中的每个条目中，将患者分类为：排除，不排除，不相关。在分类的同时，TrialGPT会针对具体每个要求解释为何做出这样的分类，并给出得到这一分类结果所依据的具体患者信息。

试验级别的评估

整体流程如图2中的b所示，这一部分计算的目的是整合标准级别的分类结果，以将患者-试验对分类至如下三类：合格，不合格，不相关。

• 不相关：不相关的患者是指与试验目的或条件无关的患者，例如试验针对的是多发性硬化症，而患者患有其他疾病。这类患者应该从候选名单中剔除，以避免干扰试验结果。

• 不合格：排除的患者是指明确不符合试验入选或排除标准的患者，例如试验要求患者年龄在18岁以上，而患者只有15岁。这类患者也应该从候选名单中剔除，以保证试验的有效性和安全性。

• 合格：符合的患者是指满足试验入选和排除标准的患者，例如试验要求患者有确诊的多发性硬化症，而患者的病历证实了这一点。这类患者是试验的目标人群，可以参与试验并接受相应的干预措施。

分类主要基于两个指标：患者-试验对的相关性分数(Relevance score)，患者-试验对的合格分数（Eligibility score。

患者-试验对的相关性分数主要用来衡量患者和临床试验之间是否相关。当患者和临床试验完全不相关时，即患者-试验对属于不相关组时，相关性分数会显著的低于合格组与不合格组。在合格组与不合格组之间，不合格组的相关性分数也会普遍低于合格组。

患者-实验堆的合格分数主要用来衡量患者是否符合临床试验受试者要求。正如其字面意义，合格组的患者-试验对会呈现较高的合格分数，而不合格组的患者-试验对呈现较低的合格分数。

TrialGPT计算相关性分数和合格分数主要依据了两种不同的方法：经典的线性组合方法、基于大语言模型的方法。

• 线性组合方法：TrialGPT将标准分类中的各个结果指数进行线性组合，以计算出患者-试验对的相关性分数以及合格分数。进行计算的结果指数包括：纳入标准的分类结果、排除标准的分类结果、解释结果、相关句定位结果。

• 基于大语言模型的方法：TrialGPT直接将标准级别的分类结果输入大语言模型，让大语言模型评估患者-试验对的相关性分数以及合格分数。

候选试验的排序

如图2的c所示，在为具体患者得到其所有患者-试验对的相关性分数和合格分数后，TrialGPT便可以依据这两个指标，为每个患者排序出最适合的临床试验，或者为患者排除掉一些严重不符合的临床试验。

TrialGPT 性能评估

为了评估TrialGPT的性能，研究人员使用了三个公开可用的患者-试验匹配数据集，分别来自SIGIR 2016、TREC 2021 CT和TREC 2022 CT。这些数据集包含了184个患者和18,238个经过人工标注的临床试验，并可以直接用来评估TrialGPT的实际性能。

评估采用了两个指标：排序分数（Ranking clinical trials）和排除分数（Excluding clinical trails）。排序分数包括NDGG@10和P@10两个指标，简单而言是用来评价排序准确率的两个指标，指标越高表示模型效果越好。排除分数则以分类结果的AUROC来表示，AUROC越高表示模型的分类效果越好。

具体的结果如图3所示，可以明显看到，综合了线性组合和大语言模型两种分数组合方法后。TrialGPT相较baseline展示出了较大的效果提升。这展现了大语言模型在临床试验患者匹配这一任务上的优越性。

图4：TrialGPT及多种baseline的结果指标。图片引自[2]↓

基于大语言模型的临床试验患者匹配方法的局限性

尽管TrailGPT在临床试验患者匹配这一任务上展示出了较高的准确性。但这一技术仍然受到大语言模型一些固有问题的限制。

如当前的大语言模型实际缺乏医学领域的专业知识，并且很多情境下难以理解医学上下文的依赖性，大语言模型还经常会出现幻觉的问题，这些局限性通常会导致大语言模型预测时会出现一些错误。

虽然目前已有用医学文本微调后的医学大语言模型，但大语言模型幻觉的问题目前难以解决。一种可能的解决办法是使用检索增强生成（RAG）技术来进行结果增强以避免幻觉，不过RAG技术仍受到知识库构建步骤的影响。总体而言，大语言模型的解释能力是非常有价值的，未来的研究可以将人工智能助手更好地融入到临床试验匹配的实际工作流程中，以提高其效率和效果。

Reference

[1] Zhang Y，Luo M，Wu P，et al。Application of computational biology and artificial intelligence in drug design[J]。International journal of molecular sciences，2022，23(21): 13568.

以上就是本篇文章【AI医疗系列三：AI大模型如何辅助临床试验患者匹配】的全部内容了，欢迎阅览！文章地址：http://sjzytwl.xhstdz.com/news/5700.html
栏目首页相关文章动态同类文章热门文章网站地图返回首页物流园资讯移动站 http://sjzytwl.xhstdz.com/mobile/ , 查看更多