微软公司首席执行官Satya Nadella在社交平台上公布,该公司最新推出的具有创新性的医疗人工智能系统MAI-DxO。
MAI-DxO的核心创新点在于其模型无关的设计理念,这一特点使得它能够与众多厂商和不同性能水平的语言模型相兼容,进而普遍增强它们的诊断能力。此外,它还能模仿真实医生的诊断过程,其准确率甚至超过了专业医生。
微软发布的测试结果揭示,在对比21位拥有超过十年临床经验的资深医生时,人类医生在《新英格兰医学杂志》所设的56例隐蔽测试题集上的平均正确率仅达到19.9%。
在预算有限的条件下,MAI-DxO运用了OpenAI的o3模型,其准确率达到了81.9%,而在集成模式下更是攀升至85.5%,这一数据超过了专业医生的四倍,同时在成本控制上也实现了显著降低。
此外,微软还推出了一款针对医疗领域的专业序贯诊断基准工具,名为SDBench。
医学诊断涉及医生对病人资料的持续搜集,他们需提出各种假设,然后对这些假设进行检验,同时逐步缩小诊断的范围,这一过程既复杂又是一个连续的步骤。
在临床诊疗过程中,医师们需依据患者初现的症状与体征,提出一系列有针对性的询问,以便更深入地掌握患者的过往病史、日常作息、家族遗传病史等相关信息。与此同时,他们还需参考各种实验室及影像学检查的数据,逐步筛选出可能的疾病选项,并最终得出精确的诊断结论。
MAI-DxO通过构建一个由扮演不同角色的虚拟医生组成的团队,共同应对诊断挑战,实现了在诊断精确度和经济效益上的重大进展。
MAI-DxO简单介绍
MAI-DxO框架的核心理念在于汲取实际医疗团队间的合作方式,促使各“医生”充分利用自身专业特长,协同参与诊断活动,并借助精心构建的协调体系,有效减少个人认知误差及过度检查等潜在问题。
Dr. Hypothesis承担着维护一个基于概率排序的鉴别诊断清单的重任,该清单列出了三种最有可能的疾病。每当有新的发现时,他都会采用贝叶斯方法对这些疾病的概率进行更新。这样的做法确保了诊断过程始终明确,并能依据新信息迅速调整诊断假设。这为后续的检查选择和诊断决策提供了可靠的依据。
Dr. Test-Chooser在每一轮中会挑选出最多三个检查项目,这些项目能够在最大程度上区分出领先的诊断假设。他精心筛选这些检查项目,目的在于以最低的信息成本获取到最有价值的诊断信息,这样做既提升了诊断的效率,又减少了不必要的检查费用。这一角色的设立,使得诊断过程更加关注检查的针对性和经济效益。
Dr. Challenger担当监督角色,他负责发现潜在的关键偏差,揭示与现有主要诊断不一致的线索,并给出可用来推翻现有主要诊断的检验建议。这种具有挑战性的思考模式能够有效打破诊断流程中的固有思维,推动团队从多角度重新评估诊断假设,防止因过早锁定某一诊断而遗漏其他潜在的可能性。
Dr. Stewardship专注于推广具有成本效益的医疗服务理念,提倡采用在诊断效果相当的同时价格更低的检查方法,同时拒绝那些收益微薄且费用高昂的检查项目。采取这种策略,Dr. Stewardship在确保诊断结果准确无误的前提下,有效管理了成本,并防止了资源的无谓消耗。使得整个诊断过程更加符合实际医疗环境中的成本效益原则。
Dr. Checklist在幕后负责执行质量控制任务,旨在保证模型输出的检查名称准确无误,同时确保团队在推理过程中的思维连贯性。这一岗位的设立,有效降低了因人为疏忽或逻辑矛盾引起的诊断错误,从而提升了整个诊断系统的稳定性和可信度。
为了检验MAI-DxO的表现,微软将其与资深的人类医师进行了全面的比较。在评估诊断准确性的核心标准上,参与测试的21位医师的平均诊断准确率竟然只有19.9%。
在多种配置条件下,MAI-DxO系统均表现出显著超越人类医生的诊断精确度。以无预算配置为例,其诊断准确率高达81.9%,而在集成配置中,这一数字更是攀升至85.5%。
在成本效益分析中,人类医生处理每起病例的平均花费为2963美元。他们平均投入11.8分钟的时间,提出6.6个问题,并要求进行7.2项检查。与此相对照,MAI-DxO在控制成本方面表现更为突出。平均检查费用在无预算配置的情况下为4735美元,而一旦纳入预算,这一费用可进一步降至2396美元,并且诊断的准确性并未因此降低。
MAI-DxO五大集成模式
为了适应多样化的医疗环境,并有效管理成本、提升诊断速度与精确度,MAI-DxO推出了五种不同的集成操作模式。
即时响应模式,该模式仅凭病例摘要展开诊断,不涉及后续的询问或检查步骤。这一模式的设计灵感源自临床对紧急状况快速应对的需求,如在资源极度短缺的偏远地区或急诊场合,医生必须基于有限资料迅速作出初步评估。尽管其诊断的精确度并不高,然而它能在极短的时间内依据模型知识给出一个初步的诊断方向,这为后续的深入治疗和诊断奠定了基础。
在技术层面,此模式直接运用语言模型对初始数据进行加工,通过调整提示词的构造以充分挖掘有限信息中的诊断线索,其显著特点是诊断过程迅速且成本极低,然而,它无法应对复杂的病例,适合那些对时间极为敏感而准确性要求相对宽松的特定场合。
在Question Only模式下,诊断工具被严格限定在提问环节,不得进行任何诊断性检查的预约。这种模式复现了基层医疗机构中,医生通过详尽询问病史以获取诊断资料的过程,突出了病史收集在诊断工作中的根本地位。费用仅涉及医生一次咨询的固定支出。
在技术层面上,该模式通过构建分级的提问策略,逐步深入探查患者信息。起初,它从患者的一般状况和主诉问题入手,随后,随着回答的逐步深入,问题会细化至具体的症状、病史和家族病史等方面。这种模式的优势在于其成本较低,对患者无任何伤害,因此非常适合作为初步的筛查工具。然而,当遇到需要客观检查作为诊断依据的疾病时,其诊断能力将受到一定程度的限制。该模式旨在充分挖掘语言模型在对话理解方面的潜力,通过改进提问的顺序,以最大程度地从患者的描述中提取出诊断所需的信息,这一理念在基层医疗服务和健康咨询等领域展现出显著的应用潜力。
预算编制模式采纳了动态预算调控机制,借助一个独立的协调语言模型进行操作,实现了对累积诊断成本的实时监控。此模式使得团队在了解每项检查的预计费用后,能够自主选择是否取消该项检查,进而在诊断环节中主动控制成本。
在技术层面,该模式起初运用自然语言处理技术,将检查需求转换成规范的CPT编码,接着依托事先构建的成本数据库进行即时成本评估。一旦累计成本逼近既定预算,系统便会启动成本警报功能,进而促使Dr. Stewardship角色对每一项检查的成本效益进行更为严格的审视。
MAI-DxO的No Budget模式呈现其全貌,未设定具体的成本监控或预算约束,使得诊断小组得以围绕提升诊断精确度这一核心目标做出决策。该模式充分展现了虚拟医疗团队协作的强大优势,依托于Dr. Hypothesis的贝叶斯推理能力、Dr. Test-Chooser的信息价值评估技巧以及Dr. Challenger的偏差检测手段,从而实现了对复杂病例的深入诊断。
在技术层面,该模式运用强化学习算法来优化角色间的协作流程,并持续调整诊断策略,以此提升诊断的精确度。其显著特点在于能够应对最复杂的病例,确保诊断结果达到最高水平,然而,这也可能带来相对较高的诊断费用。此模式在需要极高诊断准确性的场合下具有适用性,诸如三甲医院的专科会诊以及罕见病诊断中心,它为复杂病例提供了不受成本限制的精细诊断方案。
Ensemble模式通过模拟众多医生团队协同作业,有效增强了诊断的精确度;每个团队各自独立执行无预算模式,最终通过一个附加的整合界面汇总诊断结果。此模式的技术精髓在于打造多元化的诊断团队,这些团队或许会选用不同的基础模型或参数设置,进而形成各具特色的诊断策略。在结果汇总环节,系统不仅注重各团队诊断结论的统一性,而且对每个诊断结论所依据的证据力度及推理逻辑的合理性进行评估。采用这种方法,Ensemble 模式可以显著减少单个团队可能存在的偏差与失误,从而推动诊断准确性的进一步提高。
序贯诊断基准SDBench
微软AI团队倾力打造的SDBench,是一个精心设计的交互式评估工具。它将《新英格兰医学杂志》临床病理会议(CPC)所收录的304个颇具挑战性的诊断案例,转化为一系列逐步进行的交互式诊断场景。这些案例不仅包括了从常见疾病到罕见疾病的广泛临床表现,而且为评估诊断能力,无论是人类医生还是人工智能,提供了丰富且真实的数据素材。
在SDBench软件中,诊断流程是从一个简短的病例概要入手,比如:“一名29岁的女性患者因咽喉不适、扁桃体周围出现肿胀及出血而入院治疗,其症状并未因抗菌药物的使用而得到改善。”
在获得初步信息的基础上,诊断主体需确定后续需向患者提出的问题、安排的检查项目,抑或判断是否已具备做出最终诊断的条件。这一过程是循环往复的,每次诊断主体发出指令,都由一个称作“守门人”的智能体模型负责作出回应。
守门人模型系一种精心构建的语言模型,内含详尽的病例资料,涵盖最终确诊结果。然而,它仅会在诊断者提出明确查询时,提供相应的临床发现信息。若查询内容模糊不清或不够具体,模型将礼貌地拒绝作出回应。此设计旨在模仿现实临床环境中医生获取患者信息的方式,确保诊断者必须通过合理且具有针对性的提问及检查要求,逐步揭示病例的完整情况。
为了提升评估的真实性,SDBench特别加入了一个名为“法官”的智能体,专门对诊断的精确度进行评判。考虑到不同医生在描述同一疾病时可能采用不同的术语,然而他们的临床处理方法却可能完全相同,因此该智能体在评判诊断是否准确时,并不仅仅依赖字面上的描述,而是会从疾病核心实体、病因、解剖部位以及特异性等多个方面进行全面且综合的评估。