2023重要医学AI研究
2023年,医学AI基础模型、医学数据采集AI模型以及与医务工作者协同的医学AI等方面取得突破性进展。《NEJM医学前沿》特邀上海人工智能实验室、上海交通大学医学院附属瑞金医院张少霆教授团队撰文总结2023年该领域重要研究。
《NEJM医学前沿》由嘉会医学研究和教育集团(J-Med)与《新英格兰医学杂志》(NEJM)联手打造。我们连续第6年推出各重要疾病领域临床研究盘点,敬请期待。
刘绵莘,朱立峰,张少霆*
上海人工智能实验室;上海交通大学医学院附属瑞金医院
*通讯作者
自2007年IBM Watson开始,人类就在不断追求医疗人工智能(AI)的发展。一个可用而强大的医疗AI系统具有巨大的潜力,可能重塑现代医疗的各个环节,实现更智能、精准、高效、普惠的诊疗,为医务工作者与患者带来福祉,进而极大程度改善人类健康。在过去的16年中,虽然医疗AI研究者们在各个小的领域不断积累,在现阶段却仍未能将科幻带入现实。
而今年,借助ChatGPT等AI技术革命性的发展,医疗AI在诸多方面取得了长足的进步。医疗AI的能力前所未有地突破:Nature期刊连续首发医疗大语言模型和医疗图像基础模型研究;谷歌发布Med-PaLM及其后续版本,在美国执业医师考试类问题中达到专家级水平。各大学术期刊将目光齐聚医疗AI:Nature发布关于通用医疗AI基础模型的展望;《新英格兰医学杂志》(NEJM)继年初AI in Medicine系列综述后,11月30日发表了第一篇数字医疗综述, 12月12日重磅推出了NEJM子刊NEJM AI的第一期。医疗AI落地的土壤则更进一步成熟:JAMA子刊发表全球医学图像数据分享的倡议;美国食品药品管理局(FDA)对医疗AI的监管正形成指南草案。
下面,我们回顾2023年全世界科研人员在可用的医疗AI这一研究方向取得的重大进展。
医疗AI基础模型
医疗AI基础模型的构建无疑是本年度最炙手可热的研究关注点。Nature系列期刊年内已发表了关于医疗通用基础模型和医疗大语言模型的综述文章[1,2]。行业顶刊Medical Image Analysis则对医疗图像分析中基础模型研究的挑战与机遇进行了回顾与展望,并提出了“基础模型谱系”概念归纳并引导医疗AI基础模型研究的发展[3]。医疗AI基础模型的前景正在逐渐明晰。借鉴如ChatGPT的大语言模型的成功范例,利用更先进的自监督预训练方法和巨量的训练数据积累,医疗AI领域的研究者正试图构建具有海量参数、能力优越的1)专病基础模型,2)通用基础模型和3)整合广泛模态的多模态大模型。
1 专病医疗AI基础模型
在视网膜图像和病理图像研究领域,借助较先发的电子化优势,医疗AI研究者多年积累了巨量公开及私有数据,在2023年成功构建了多个眼科及病理科的基础模型。这些基础模型具有强大的泛用性,在多中心数据、多种领域内临床任务上都表现出优异的性能。
2023年9月13日,英国伦敦大学学院和莫菲尔德眼科医院的周玉昆等研究人员发表了第一项登上Nature正刊的医疗图像基础模型研究[4]。他们构建并验证了名为RETFound的视网膜图像基础模型。通过在超过164万张未标注的视网膜图像上进行自监督学习训练,RETFound得以问世,其经微调后能够在眼部疾病诊断/预后以及系统性疾病预测等任务中取得最优表现。在眼部疾病诊断验证方面,RETFound的测试数据涵盖了来自8个不同中心的数据集。至于系统性疾病的评估,研究者考虑了包括心脏病、心力衰竭、卒中和帕金森病等在内的4种全身性疾病。RETFound的成功标志着大量基于视网膜图像的智能化诊断应用正在成为可能。与之对应的,今年7月,温州医科大学联合澳门科技大学也发布了神经眼科大型语言模型Neuro-OphGPT数字医疗系统[5]。
同时,在病理图像研究领域,病理图像基础模型的构建正紧锣密鼓地展开。来自哈佛医学院的Richard J. Chen等人基于来自布莱根和妇女医院以及麻省总医院的覆盖20种主要组织类型、超10万套全切片病理图像(whole-slide imaging,WSI),进行了模型自监督预训练,提出了一个称为UNI的病理基础模型,并在33个不同诊断难度的病理学代表性临床任务上进行了评估,在所有任务上均达到了最先进的性能[6]。来自美国Paige公司的研究人员则联合悉尼圣乔治医院和纪念斯隆-凯特琳癌症中心,在150万套WSI上预训练了一个具有6.32亿参数的名为Virchow的模型,在泛癌症检测与亚型划分及生物标志物预测等任务上进行了验证[7]。
上述两项研究似乎表明构建病理图像基础模型需要获得顶级医院的巨量临床资源,而发表在Nature Medicine上的一篇研究论文则进一步为研究者们打开了思路[8]。黄治等斯坦福大学的研究人员通过Twitter(现更名为X)的医学知识共享平台上公开的数据建立了一个庞大的数据集OpenPath,解决了数据来源和标注的问题。这一数据集包含二十万余张病理图像,每张图像都附带由医学专业人士共享的自然语言描述。借助这些开源的数据,他们训练了PLIP模型。这样的数据集构建思路与使用医疗私有数据资源形成互补,并使得构建更大尺度的病理图像数据集成为可能,病理图像基础模型的能力则有望迎来进一步提升。
值得一提的是,国内上海人工智能实验室联合多家国内机构今年6月发布全球首个医疗多模态基础模型群“OpenMEDLab浦医” [9]。浦医是一系列基础模型的集合,覆盖放射影像、病理图像、内镜、超声、医学文本、生物信息、蛋白质等10余种医疗数据模态。该基础大模型群的构建是国内科研人员推动医疗大模型产业落地的新尝试。
2 通用医疗AI模型
通用医疗AI模型的建立也正在成为可能。类似专科医生和全科医生的区别,专病模型只能适用于特种数据或专门类别疾病的应用,而通用医疗AI模型则被期望可以覆盖广谱的临床流程,同时通过对庞杂医疗知识的融会贯通,实现“它山之石可以攻玉”,在专病领域达到令人惊艳的效果[1]。
2023年9月,ChatGPT成功诊断了一例医生多年未能确诊的罕见病。在三年时间中,来自美国的Courtney带着其患儿Alex先后求助了17名不同科室的医学专家。然而,没有一位医生能够真正准确地诊断出Alex的病因[10]。直到今年早些时候,Courtney从ChatGPT那里得到了罕见病“脊髓栓系综合征”的诊断,并最终得到了神经外科医生的证实。在NEJM AI创刊号上,Alexander V. Eriksen 等人验证了GPT-4诊断复杂临床病例的能力。GPT-4 正确诊断了57%的复杂病例,优于99.98%根据在线答案生成的模拟人类读者[11]。在临床中,每位专家只会处理他们各自擅长领域的问题。而这一现有临床诊断流程设计的缺憾为通用医疗AI模型提供了大展拳脚的空间。
截至2023年底,世界范围内对构建通用医疗AI模型的努力主要聚焦在医疗大语言模型和医疗图像通用分割模型上。今年7月,谷歌和DeepMind公司的研究人员在Nature上发表了一项研究。谷歌科学家团队通过一系列指令提示微调,从通用语言模型构建了医学专用的Med-PaLM,并让该模型在非限定医学领域内容的问题中做出回答[12]。在真人专家评估中,一组临床医生对Med-PaLM回答的评分为92.6%,与临床医生的水平(92.9%)相当。除了专家评估,研究团队还进行了非医学领域专家评估。五位非医学背景的评委认为Med-PaLM给出的答案准确度为80.3%,且在94.4%的病例中被认为直接解决了病人提出的问题;相比之下,人类临床医生的这一比例为95.9%。
在谷歌和DeepMind后续公布的版本中,Med-PaLM 2已经能在美国医疗执照考试(USMLE)类问题上达到专家级的表现,能够以86.5%的准确率回答多项选择题、开放式问题并开展答案推理[13]。
在医学图像分割领域,研究者们主要借助来自Segment-Anything Model(SAM,分割一切模型)[14]的强大能力,开发使用任意图像模态任意分割目标的医疗图像通用分割模型。来自多伦多大学的Jun Ma和Bo Wang率先将SAM引入医学图像分割领域[15]。他们构建了覆盖11种不同模态的超过20万张带标注的医学图像数据集,并提出一种新的微调方法,构建了MedSAM模型,并在21个3D分割任务和9个2D分割任务上进行验证。佐治亚大学的研究团队则与麻省总医院合作将SAM模型应用到医疗视频分析中[16]。上海人工智能实验室的研究者也相继提出了MedLSAM模型[17]和SAM-Med2D模型[18],并公开了模型和训练数据集。
这些新模型较以往方法已经体现出较好的医学图像分割任务的跨模态跨任务泛化性,可以较好缓解医学图像分割人工标注缺少、模型不通用需要重新训练的问题。然而,距离完全无需额外标注的医学图像SAM通用模型还有一定的距离。
3 覆盖更广泛模态的AI模型
Julián N. Acosta等人在2022年Nature Medicine一篇综述中向世界宣告,大型生物库、电子健康记录、医学成像以及可穿戴和环境生物传感器提供生物医学数据的不断积累,以及基因组和微生物组测序成本的降低,已为开发多模式AI解决方案以捕捉人类健康和疾病复杂性奠定了基础[19]。最近涌现的医疗AI模型展现了史无前例的文本信息处理和多模态信息融合能力。这些多模态医疗AI模型有望填补人类在整合庞杂多模态信息方面的不足,成为个性化系统化临床决策的有力助手。
来自上海科技大学的研究团队将大语言模型引入医学图像分析领域,在多轮对话中让AI模型理解医学图像并给出诊断和分析,并发现大语言模型中编码的知识显著提升了基于医学图像视觉信息的诊断[20]。来自上海人工智能实验室的团队则借助大语言模型开展了病理图像诊断[21]和X光图像诊断(XrayPULSE),并将模型开源[9]。
今年6月,Nature Biomedical Engineering发表了来自香港大学、四川大学华西医学院、澳门科技大学等合作完成的研究[22]。他们提出了IRENE框架,以非结构化的临床文本、结构化的临床信息和X光图像作为输入,由模型进行自动信息处理、特征提取、特征融合和最终诊断生成,在八种肺部疾病诊断中证实了性能提升。
8月,Lancet Digital Health报道了来自广州医科大学附属第一医院何建行教授团队的研究工作[23]。他们运用外周血cfDNA甲基化标志物、临床信息和影像学特征,利用AI模型有机融合跨尺度信息,构建了肺结节良恶性分类模型,用于肺癌的早期诊断,具有优异的诊断性能。这些近期代表性的工作诠释了利用AI融合多模态数据服务临床任务的新范式。
医疗数据采集AI模型
除了在较下游的临床数据分析任务中大显身手的AI大模型,在较上游的临床数据采集中,以生成式AI模型为代表的技术也已崭露头角。数据的采集流程、速度和质量可以显著地被AI算法提升。
今年年初,Nature Biomedical Engineering刊登了一项来自土耳其海峡大学的研究[24],该研究专注于利用生成式AI解决在临床应用中病理图像辅助诊断的难题。在手术期间,冷冻切片组织中的伪影是快速诊断评估的障碍。虽然福尔马林和石蜡包埋(FFPE)组织提供了更高质量的样本,但其制作过程耗时费力,通常需要12-48小时,因此不适合在手术中使用。研究团队因此提出了一种名为AI-FFPE的算法,能够将冷冻切片中组织的外观变得与FFPE类似。该算法成功纠正了冰冻切片的伪影,提高了图像质量,并同时保留了临床相关的特征。在临床验证中,AI-FFPE算法显著提高了病理学家对肿瘤亚型的诊断准确率,同时将临床诊断的时间大大缩短。
Cell Reports Medicine报道了一项来自吉林大学第三临床医学院、复旦大学附属中山医院放射科以及上海科技大学团队的研究工作[25]。该研究提出了一种通用型的深度学习和迭代重建融合框架(Hybrid DL-IR),具有较高的通用性和灵活性,在快速MRI、低剂量CT和快速PET方面均表现出卓越的图像重建性能。该算法能够在百秒内实现MR单器官多序列扫描,降低辐射剂量至仅为CT图像的10%,且消除噪声,并且能够从2~4倍加速的PET采集中重建微小病灶,同时减少运动伪影的影响。
和医务工作者协同的医疗AI
医疗AI如火如荼的发展也使得医务工作者开始认真思考与探索如何与AI协同以改进临床流程。今年7月,DeepMind公司与多机构研究团队共同提出了名为“互补驱动的临床工作流程延迟(CoDoC)”的AI系统[26]。该诊断流程首先由预测AI系统进行诊断,然后由另一个AI系统对前一结果进行判断,若存在疑虑,则最终由临床医生进行诊断,以提高诊断准确性并兼顾效率。在乳腺癌筛查方面,与英国现行的“双读仲裁”流程相比,CoDoC 在相同假阴性率下将假阳性率降低了25%,同时减少临床医生66%的工作量。在结核病分类方面,与独立的人工智能和临床工作流程相比,在相同的假阴性率下,假阳性率降低了5%~15%。
类似地,英国伦敦Kheiron 公司的Annie Y. Ng等人在双读仲裁流程中,在出现阴性(no recalll)结果时额外引入AI读片者(配合人类审查员)再次复查结果,改善了乳腺癌早期筛查中的漏检问题,同时该流程几乎没有误报[27]。另一项由德克萨斯大学麦戈文医学院团队牵头、在四个卒中中心完成的研究应用了基于计算机断层扫描血管造影(CTA)AI技术对大血管闭塞性缺血性卒中(LVO)进行自动检测。临床医生和放射科医生的手机会在CT成像完成后几分钟内收到实时警报,通知他们可能存在LVO。这一AI流程改善了院内急性缺血性卒中的工作流程,缩短了入院到实施治疗的时间(door-to-groin time),为成功抢救赢得了机会。该研究结果发表在JAMA Neurology [28]。
普惠的AI医疗模型
2023年还涌现了许多优秀的工作,其借助医疗AI从更易于获得的数据中发现人眼无法察觉的特征,实现普惠的诊断和大规模的早期筛查。年初,Nature Medicine发表了中山大学中山眼科中心、福建医科大学附属第二医院等机构完成的研究[29]。他们以智能手机为应用终端,使用类似卡通的视频图像来诱导儿童的注视,并记录儿童的注视行为和面部特征,使用深度学习模型进一步分析异常模型,以超过85%的平均筛查准确率成功识别了16种眼科疾病,包括先天性白内障、先天性上睑下垂和先天性青光眼等。这为婴幼儿视功能损伤及相关眼病大规模早期筛查提供了有效而易于推广的技术手段。
年末,Nature Medicine则报道了一项由上海市胰腺疾病研究所、浙江大学第一附属医院等全球十多家医疗、研究机构一同完成的工作[30]。作者将AI用于体检中心、医院等无症状人群的胰腺癌筛查,检测平扫CT图像中单凭肉眼难以察觉的病变特征,实现高效、无创的早期胰腺癌检测。在回顾2万多患者数据时,该模型还发现了31例临床漏诊病变,切实改善了临床结局。
医疗数据的共享
在2023年中,世界范围内已涌现了许多更加完善的数据共享机制和成功的案例,在保护数据隐私和安全的前提下,保证了多中心合作和数据开放工作的开展。
首先,借助AI技术本身,AI研究人员在医疗数据的共享中做出了贡献。来自美国罗格斯大学的Qi Chang等人在Nature Communications上发表文章,提出一个基于分布式合成对抗网络的联邦学习框架DSL,利用生成式AI训练多中心特异的生成数据,再用生成数据代替多中心的真实数据,在保护数据隐私的同时保证基于多中心大数据的AI训练[32]。同一团队还开源了一个生成的病理图像数据集及其对应的标注[33]。在该生成的数据集上训练的分割模型可达到与真实数据相似的效果。
来自清华大学的戴琼海团队则在npj Digital Health上发文,提出接力学习(Relay Learning),在本地保留数据主权,无需跨站点网络连接的前提下,利用多站点大数据训练AI模型,兼顾了数据安全和隐私的担忧和对AI性能的追求[34]。同一团队后续又联合广州医科大学附属第一医院及全国24家医院共同开发和验证了基于联邦学习的胸部CT泛纵隔肿瘤诊断系统CAIMEN。该系统可被应用于12种常见的纵隔肿瘤,单独使用时达到相比单独人类专家提高44.9%的准确率,人类专家在其辅助下的诊断准确率提高了19% [35]。
另一方面,已有多项计划正在付诸行动,以建立安全的全球性大规模医疗数据集。2023年11月,哈佛医学院生物医学信息学系的Agustina Saenz等人在Lancet Digital Health上在线发表了一项名为“全民医疗人工智能数据 (MAIDA)”的全球医学影像数据共享框架[36]。他们正与全球医疗机构进行合作,提供了有关数据收集和去识别化的全面指南,使用美国联邦示范合作伙伴(FDP)模板来标准化数据共享。他们计划逐步发布在全球不同地区和临床环境中收集的数据集。第一个数据集预计于2024年初发布,随着合作伙伴关系的扩大,他们还会发布更多数据集。这项计划是一项构建全球性大尺度多样化公开AI可用数据集的重要尝试。
而紧随这项计划的提出,英国生物银行(UK Biobank)已经做出了表率。英国生物银行11月30日公布了对其50万参与者进行全基因组测序的新数据[37]。这个数据库公布50万名英国志愿者的每一个人的完整基因组序列,是世界上最大的完整人类基因组数据库。全世界的研究人员都可以申请访问这些去识别化的数据,并利用它们来探究健康和疾病的遗传基础。基因数据在以往的验证中向来具有高度敏感性,而英国生物银行这一历史性的成就则证明了构建开放的、无隐私侵犯的全球大规模数据库是可行的。借助这项技术和数据库,医疗AI必将迎来下一次的飞跃。
医疗AI的验证与评测
与医疗AI技术的快速发展本身相比,医疗AI的验证与评测的发展稍显迟钝。通用AI领域的验证与评测常忽视临床工作者和患者对AI的真实要求。而传统的临床随机对照试验费事费力,无法很好匹配AI工具的快速迭代。尽快完善适合医疗AI工具的验证与评测体系是推动医疗AI真正跨越研发到临床落地的重中之重。
在Nature发表的谷歌关于Med-PaLM的研究论文中,研究团队同时还发布了MultiMedQA评估基准,用于评估大语言模型掌握临床知识的能力[12]。该基准结合了六个现有专业医疗问答数据集,涵盖专业医学知识、研究等多个方面,以及一个在线搜索医疗问题库数据集,考虑医患在线问答,力图从多方面把AI培养成一名合格的医生。此外,该团队提出了一个基于人类评估的框架,考虑了事实、理解、推理,以及可能的偏见等多个维度。这是今年发表的研究中对医疗AI评估最具有代表性的研究工作之一。
然而,是否大语言模型表现出在编码临床知识方面极高的水平,就代表大语言模型可胜任真实的临床任务?正如满分通过职业医师考试的医学生仍然与独挡一面的主任医师相距甚远,对AI模型而言,谷歌提出的这一评测标准可能还并非医疗AI评测这一课题的完美回答。早在2021和2022年就已有研究者提出DECIDE-AI、SPIRIT-AI、INTRPRT等报告指南,在考虑临床实用性、安全性、人为因素、透明度/可解释性等方面因素的条件下,希望指导医疗AI的早期开发与验证[38-40]。就在近期,Nature Medicine杂志刊登了来自牛津大学、斯坦福大学研究人员的关于应该使用“外部跨中心验证(external validation)”还是“本地多次验证(recurring local validation)”来验证AI工具的讨论[41]。
AI工具的无偏见性也是一个重要的评估方向,在今年同时受到来自Science和NEJM文章的关注[42,43]。由于受限于训练数据,AI常表现出偏见。这种偏见可能反映了社会不平等,进一步演变为算法的歧视。美国国立卫生研究院最近推出了“Bridge2AI”计划,预计耗资1.3亿美元,旨在构建多样化的数据集(这与上文提到的MAIDA计划目标一致),以用于验证医学AI工具的无偏性[44]。这些方面都并未包括在MultiMedQA的考量范围之内。如何评测和验证医疗AI模型这一问题仍然需要广泛和深入的讨论。
今年1月,Nature Medicine刊登了来自德克萨斯大学 MD 安德森癌症中心Vivek Subbiah的名为《下一代循证医学》的观点文章[45],回顾COVID-19大流行下被暴露的临床试验的局限性,指出创新与固守临床研究流程之间的矛盾,最后指出一种重构临床实验的未来——使用人工智能的下一代临床试验,即利用人工智能从大量历史研究数据、真实世界数据、多模态临床数据、可穿戴装置数据中寻找关键证据。这是否意味着AI技术与AI的临床验证流程在未来可能相互促进、共同进化?这是2023年悬而未决而又引人深思的问题。
医疗AI的监管
AI技术提升的同时对AI的监管提出了挑战,而全世界的政策制定者们则在认真谨慎地做出回应。2019年,FDA首先发布了《人工智能医疗器械软件变更监管框架提议(讨论稿)》,详述了其对人工智能与机器学习驱动的软件修改在上市前审查方面的潜在方法。到了2021年,FDA则提出了《基于人工智能/机器学习的软件作为医疗器械行动计划》,明确了五项具体的AI医疗监管措施。今年,FDA再次发布了《器械软件功能上市前提交内容》,旨在为FDA评估器械软件功能的安全性和有效性提供关于上市前提交推荐文件的信息,其中包括部分使用通过机器学习方法训练的机器学习模型的软件设备功能。可见,FDA的监管政策从最初的提议逐渐演变为切实可行的指南。
自去年7月发布《欧洲健康数据空间》后,欧盟再次颁布了《人工智能法案》。前者旨在充分利用健康数据,提供高质量医疗保健,减少不平等,为预防、诊断、治疗、科研创新、决策和立法提供数据支持,同时确保欧盟公民对其个人健康数据拥有更大的控制权。而后者则明确医疗诊断系统属于高风险AI系统,需要采取有针对性的强监管、全生命周期监管和事前评估式监管。欧洲药品管理局(EMA)发布了一份关于使用AI支持药物开发、监管和使用的反思文件草案(Draft Reflection Paper),强调提高AI的可信度,确保患者安全和临床研究结果完整。总体而言,欧盟的监管方针正在逐步形成,最终的实施细节可能更为细致和严格。与欧盟严格的监管形成鲜明对比的是,英国的人工智能监管蓝图明确表示,政府计划采取温和的方式,目前不制定新的法案或设立新的监管机构。
在国内,国家药品监督管理局医疗器械技术审评中心(NMPA)此前已发布了《深度学习辅助决策软件审评要点》、《人工智能医疗器械注册审查指导原则(征求意见稿)》和《人工智能医用软件产品分类界定指导原则的通告(2021年第47号)》等文件,今年则再次发布了《2023年第一次医疗器械产品分类界定结果汇总》。这一系列文件使得人工智能医疗软件产品的定义、分类和监管更加清晰,更易操作,为行业内各企业的产品定位和注册策略提供了明确的指导。这些文件为AI医疗器械的科学监管提供了框架和管理决策。值得期待的是,于12月21~23日在杭州举行的中国医学人工智能大会议程中专门设置了数字医疗治理与公立医院高质量发展论坛和人工智能医疗器械检测审评技术标准化产业发展论坛。届时,国家发改委与NMPA的官员将出席会议,可能释放新的信息。
总结与展望
受限于篇幅,本文无法涵盖2023年全部优秀的医疗AI研究工作,同时也未能包括更多正在蓬勃发展的AI医疗研究方向,如AI在医学教育、分子医学、新药研发、流行病预测、手术机器人等中的应用。
在2023年,医疗AI已开始融入医疗上下游全流程,覆盖院区数据采集、融合、分析、诊疗及社区筛查,与医务/疾控工作者有机协同,展现为人类健康带来福祉的潜力。
除去医疗AI技术本身的进化,可用的AI实现需要更多配套的土壤。早在2020年,NEJM观点栏目就曾发表文章,指出数据可靠性和可用性、医疗体制以及监管能力是阻碍AI前进的绊脚石[31]。而今年,我们也目睹了AI医疗所需的数据共享机制、验证与评测机制和监管机制方向令人可喜的进展。
可用的医疗AI研究已出现曙光。未来,医疗AI的进步不仅依赖于技术发展本身,还需要产学研医的通力合作及政策制定者、监管者的支持。这种跨领域的协作是实现融合AI技术的医疗服务的关键,也必将推动人类健康事业的发展。
参考文献
- Moor M, Banerjee O, Abad ZSH, et al. Foundation models for generalist medical artificial intelligence. Nature 2023;616:259-65.
- Thirunavukarasu AJ, Ting DSJ, Elangovan K, Gutierrez L, Tan TF, Ting DSW. Large language models in medicine. Nat Med 2023;29:1930-40.
- Zhang S, Metaxas D. On the challenges and perspectives of foundation models for medical image analysis. Med Image Anal 2024;91:102996.
- Zhou Y, Chia MA, Wagner SK, et al. A foundation model for generalizable disease detection from retinal images. Nature 2023;622:156-63.
- https://www.wzeye.cn/xww/news/show-53839.html
- Chen RJ, Ding T, Lu MY, et al. A general-purpose self-supervised model for computational pathology. ArXiv [Preprint] 2023;arXiv:2308.15474v1.
- Vorontsov E, Bozkurt A, Casson A, et al. Virchow: A million-slide digital pathology foundation model. ArXiv [Preprint] 2023;arXiv:2309.07778.
- Huang Z, Bianchi F, Yuksekgonul M, Montine TJ, Zou J. A visual-language foundation model for pathology image analysis using medical Twitter. Nat Med 2023;29:2307-16.
- https://github.com/openmedlab
- https://www.today.com/health/mom-chatgpt-diagnosis-pain-rcna101843
- Eriksen AV, Möller S, Ryg J. Use of GPT-4 to diagnose complex clinical cases. NEJM AI 2023;DOI: 10.1056/AIp2300031.
- Singhal K, Azizi S, Tu T, et al. Large language models encode clinical knowledge. Nature 2023;620:172-80.
- Singhal K, Tu T, Gottweis J, et al. Towards expert-level medical question answering with large language models. ArXiv [Preprint] 2023;arXiv:2305.09617.
- Kirillov A, Mintun E, Ravi N, et al.. Segment anything. ArXiv [Preprint] 2023;arXiv:2304.02643.
- Ma J, He YT, Li FF, et a;. Segment anything in medical images. ArXiv [Preprint] 2023;arXiv:2304.12306.
- Kim S, Kim K, Hu J, et al. MediViSTA-SAM: Zero-shot medical video analysis with spatio-temporal SAM adaptation. ArXiv [preprint] 2023;arXiv:2309.13539.
- Lei WH, Wei X, Zhang XF, Li K, Zhang ST. MedLSAM: Localize and segment anything model for 3D medical images. ArXiv [preprint] 2023;arXiv:2306.14752.
- Cheng JL, Ye J, Deng ZY, et al. Sam-med2d. ArXiv [preprint] 2023;arXiv:2308.16184.
- Acosta JN, Falcone GJ, Rajpurkar P, Topol EJ. Multimodal biomedical AI. Nat Med 2022;28:1773-84.
- Wang S, Zhao ZH, Ouyang X, Wang Q, Shen DG. Chatcad: Interactive computer-aided diagnosis on medical image using large language models. ArXiv [preprint] 2023;arXiv:2302.07257.
- Zhang YK, Gao J, Zhou M, et al. Text-guided foundation model adaptation for pathological image classification. ArXiv [preprint] 2023;arXiv:2307.14901
- Zhou HY, Yu Y, Wang C, et al. A transformer-based representation-learning model with unified processing of multimodal input for clinical diagnostics. Nat Biomed Eng 2023;7:743-55.
- He J, Wang B, Tao J, et al. Accurate classification of pulmonary nodules by a combined model of clinical, imaging, and cell-free DNA methylation biomarkers: a model development and external validation study. Lancet Digit Health 2023;5:e647-e656.
- Ozyoruk KB, Can S, Darbaz B, et al. A deep-learning model for transforming the style of tissue images from cryosectioned to formalin-fixed and paraffin-embedded. Nat Biomed Eng 2022;6:1407-19.
- Liao S, Mo Z, Zeng M, et al. Fast and low-dose medical imaging generation empowered by hybrid deep-learning and iterative reconstruction. Cell Rep Med 2023;4:101119.
- Dvijotham KD, Winkens J, Barsbey M, et al. Enhancing the reliability and accuracy of AI-enabled diagnosis via complementarity-driven deferral to clinicians. Nat Med 2023;29:1814-20.
- Ng AY, Oberije CJG, Ambrózay É, et al. Prospective implementation of AI-assisted screen reading to improve early detection of breast cancer. Nat Med 2023;29:3044-9.
- Martinez-Gutierrez JC, Kim Y, Salazar-Marioni S, et al. Automated large vessel occlusion detection software and thrombectomy treatment times: A cluster randomized clinical trial. JAMA Neurol 2023;80:1182-90.
- Chen W, Li R, Yu Q, et al. Early detection of visual impairment in young children using a smartphone-based deep learning system. Nat Med 2023;29:493-503.
- Cao K, Xia Y, Yao J, et al. Large-scale pancreatic cancer detection via non-contrast CT and deep learning. Nat Med 2023;29:3033-43.
- Mehta MC, Katz IT, Jha AK. Transforming global health with AI. N Engl J Med 2020;382:791-3.
- Chang Q, Yan Z, Zhou M, et al. Mining multi-center heterogeneous medical data with distributed synthetic learning. Nat Commun 2023;14:5510.
- Ding K, Zhou M, Wang H, Gevaert O, Metaxas D, Zhang S. A large-scale synthetic pathological dataset for deep learning-enabled segmentation of breast cancer. Sci Data 2023;10:231. .
- Bo ZH, Guo Y, Lyu J, et a;. Relay learning: a physically secure framework for clinical multi-site deep learning. NPJ Digit Med 2023;6:204.
- Tang R, Liang H, Guo Y, et a;. Pan-mediastinal neoplasm diagnosis via nationwide federated learning: a multicentre cohort study. Lancet Digit Health 2023;5:e560-e570.
- Saenz A, Chen E, Marklund H, Rajpurkar P. The MAIDA initiative: establishing a framework for global medical-imaging data sharing. Lancet Digit Health 2023:S2589-7500(23)00222-4.
- https://www.nature.com/articles/d41586-023-03763-3
- DECIDE-AI Steering Group. DECIDE-AI: new reporting guidelines to bridge the development-to-implementation gap in clinical artificial intelligence. Nat Med 2021;27:186-7.
- Vasey B, Novak A, Ather S, Ibrahim M, McCulloch P. DECIDE-AI: a new reporting guideline and its relevance to artificial intelligence studies in radiology. Clin Radiol 2023;78:130-6.
- Chen H, Gomez C, Huang CM, Unberath M. Explainable medical imaging AI needs human-centered design: guidelines and evidence from a systematic review. NPJ Digit Med 2022;5:156.
- Youssef A, Pencina M, Thakur A, Zhu T, Clifton D, Shah NH. External validation of AI models in health should be replaced with recurring local validation. Nat Med 2023;29:2686-7.
- DeCamp M, Lindvall C. Mitigating bias in AI at the point of care. Science 2023;381:150-2.
- Ferryman K, Mackintosh M, Ghassemi M. Considering biased data as informative artifacts in AI-assisted health care. N Engl J Med 2023;389:833-8.
- https://commonfund.nih.gov/bridge2ai
- Subbiah V. The next generation of evidence-based medicine. Nat Med 2023;29:49-58.
作者介绍
刘绵莘,现为上海人工智能实验室青年研究员。刘博士本科及博士毕业于电子科技大学和香港浸会大学。其长期关注在脑信号及影像分析、脑疾病分析智能算法开发、神经动力学建模和心理/行为统计分析方面等方面。现已在国际重要期刊如《美国科学院院刊》、《自然 通讯》等及医疗图像分析国际顶级会议上发表/接收32篇论文,其中一作及共同一作15篇,现共被引用382次,h指数为8。获2021年上海市博士后日常经费资助1项。任IEEE TMI, Medical Image Analysis, IEEE TBME审稿人。
朱立峰,正高级工程师。现任上海交通大学医学院附属瑞金医院市数字医学创新中心专职副主任。长期从事医院信息化建设工作,在HIS系统、区域医疗信息化、临床数据中心建设等领域积累了丰富的经验。主持和为主参与省级以上课题11项,发表论文50余篇。曾获中国医院协会医院科技创新奖一等奖,上海市科技进步三等奖。目前是上海计算机开放学会理事,中国医院协会信息管理专委会青年委员会副主任委员,上海医院协会信息管理专委会青年委员。
张少霆,现担任上海人工智能实验室智慧医疗中心主任及领军科学家。其本硕博分别毕业于浙江大学、上海交通大学、美国罗格斯大学,此后于美国北卡罗莱纳大学夏洛特分校计算机系担任教职至终身副教授。其论文成果多次获得领域内顶级会议的青年科学家奖和最佳论文奖、美国橡树岭大学联合会青年教授奖等。他在《柳叶刀 数字健康》、《自然 机器智能》、《自然 通讯》等顶级期刊上以第一作者或通讯作者发表文章数十篇,总引用16,000余次,H-Index 60,并入选美国斯坦福大学发布的全球前2%顶尖科学家“终身科学影响力排行榜”。
版权信息
本文由《NEJM医学前沿》编辑部负责翻译、编写或约稿。对于源自NEJM集团旗下英文产品的翻译和编写文章,内容请以英文原版为准。中译全文以及所含图表等,由马萨诸塞州医学会NEJM集团独家授权。如需转载,请联系nejmqianyan@nejmqianyan.cn。未经授权的翻译是侵权行为,版权方保留追究法律责任的权利。
问 Ai人工智能在医学 有哪些 创新应用?