公示公告

+

医学人工智能评测联盟在沪成立,MedBench 4.0发布引领医疗AI标准化新阶段

发布时间 : 2026-01-04 11:36:43
导语

11月20日,以"智汇医学 AI无界"为主题的浦江医学人工智能大会暨首届上海市医学人工智能应用技能大赛总结会在上海成功举办。本次大会是响应国务院"人工智能+"行动战略部署的重要举措,由国家卫生健康委员会、上海市卫生健康委员会、上海市经济和信息化委员会等八个政府部门共同指导,上海人工智能实验室、上海市医务工会等权威机构联合主办。大会现场,医学人工智能评测联盟正式宣布成立,同步发布国内首个医疗大模型安全应用标准草案《医疗大模型应用安全实施指南》以及全新升级的MedBench 4.0权威评测平台,并通过"人机大战"实战演示环节生动展现了人工智能技术在复杂医疗场景中的应用潜力。来自全国各地的医疗健康领域专家学者、医疗机构管理者、科技企业代表逾千人齐聚一堂,共同探讨医学人工智能的规范化发展路径与产业未来。

1.jpg

一、国家战略驱动下的行业盛会
本次大会的召开正值我国"十四五"规划攻坚收官、"十五五"规划谋篇布局的关键节点。2024年政府工作报告明确提出开展"人工智能+"行动,将AI技术深度赋能各行各业列为国家优先发展战略。医疗健康作为关系国计民生的重要领域,其智能化转型进程备受瞩目。上海市作为我国人工智能创新发展的核心策源地,早在2017年就已发布《关于本市推动新一代人工智能发展的实施意见》,将智能医疗列为重点突破方向。
国家卫生健康委医政司副司长郑桐森在致辞中强调,医学人工智能的健康发展必须坚持"技术创新与制度保障双轮驱动"的基本原则。他指出,当前医疗AI产品百花齐放,但缺乏统一的评测标准和技术规范,导致医疗机构在选型应用时面临诸多困惑,监管部门在审批管理时也缺少科学依据。在此背景下,上海能够率先牵头组建医学人工智能评测联盟,并推出配套的标准体系和评测平台,体现了其在全国医疗AI治理体系建设中的责任担当。
上海人工智能实验室党委副书记徐枫表示,作为国家战略科技力量,实验室始终将生命健康作为AI for Science应用落地的重点方向。本次发起的评测联盟将充分发挥实验室在人工智能基础理论、关键技术方面的研发优势,联合医疗机构的临床专业能力和企业的工程化经验,构建面向真实医疗场景的全链条评测服务能力,为医疗AI产品的安全性、有效性、可靠性提供科学验证。
上海市卫生健康委员会党组书记、主任闻大翔在致辞中透露,上海正在研究制定《上海市医学人工智能发展三年行动计划(2025-2027)》,计划到2027年建成5-8个国家级医学人工智能创新平台,培育30个以上具有全国影响力的标杆应用场景,形成千亿级产业规模。评测联盟的成立正是该计划落地实施的重要抓手,将为上海打造全球医学人工智能高地提供坚实的技术支撑和标准保障。
二、医学人工智能评测联盟:填补行业空白的关键布局
作为本次大会的核心成果,医学人工智能评测联盟的成立标志着我国医疗AI产业从"野蛮生长"向"规范发展"的历史性跨越。该联盟由上海人工智能实验室牵头筹建,广泛吸纳了北京协和医院、四川大学华西医院、复旦大学附属中山医院、上海交通大学医学院附属瑞金医院等国内顶尖医疗机构,中国医院协会、中国医疗器械行业协会等权威行业组织,以及华为、腾讯、百度、商汤科技等领先科技企业作为创始成员单位。
联盟秘书处负责人、上海人工智能实验室智慧医疗研究中心主任刘军教授介绍,联盟将聚焦三大核心职能:首先,建立临床导向的评测标准体系,组织临床专家、技术专家、法学专家共同制定覆盖医疗AI产品全生命周期的技术规范和评价指标;其次,建设高质量标注数据集,依托成员单位的临床资源,构建涵盖影像、病理、心电、文本等多模态数据的评测数据库,确保数据的真实性、多样性和代表性;第三,探索多模态融合与智能体协同评测技术路线,针对当前大语言模型、视觉大模型以及多智能体系统等前沿技术范式,开发自动化、可重复、可解释的评测工具链。
据悉,联盟已启动首批五项标准研制工作,包括《医疗大模型临床能力评测通用要求》《医学影像AI产品性能验证技术规范》《医疗智能体系统安全评估指南》《医疗AI数据集质量评价指标体系》以及《医疗AI产品临床应用效果评估方法》。这些标准预计将在2025年下半年正式发布,届时将成为国内医疗AI领域首个系统性技术规范文件。
在运行机制方面,联盟采取"开放、透明、共治"的管理模式,设立技术指导委员会、标准工作委员会、评测实施委员会和伦理审查委员会四个专门机构。技术指导委员会由樊嘉院士、陈义汉院士等20余位院士专家组成,负责把握技术发展方向;标准工作委员会由医疗机构、科研院所和企业的技术骨干组成,承担具体标准起草工作;评测实施委员会负责组织开展产品测试和认证工作;伦理审查委员会则确保所有评测活动符合医学伦理和患者隐私保护要求。
三、MedBench 4.0:打造医疗AI评测的"金标准"
同步发布的MedBench 4.0评测平台是联盟工作的首要技术成果。作为国内首个且唯一面向垂直模型、专科模型和应用场景的医疗大模型评测与验证体系,MedBench自2022年首次发布以来已历经四次重大迭代,累计服务超过200家企业和研究机构,完成近千次模型评测,已成为业界公认的医疗AI性能评价权威工具。
本次4.0版本升级聚焦"实战化评测突破"与"生态化开放共建"两大战略方向,实现了从技术验证到价值验证的范式转变。平台技术负责人、上海人工智能实验室青年科学家王浩博士介绍,MedBench 4.0在评测维度和技术架构上实现了全方位革新:
在评测体系方面,平台深度对接国家卫生健康委发布的《卫生健康行业人工智能应用场景参考指引》,覆盖智能辅助诊断、智能辅助治疗、智能健康管理等12大类60个细分场景。每个场景都配套建设了独立的评测数据集,考题总量突破70万道,较3.0版本增长近5倍。这些题目全部由三甲医院副主任医师以上职称专家原创命制,经过多轮审核和校对,确保专业性和权威性。
技术架构上,MedBench 4.0支持大语言模型、多模态大模型和智能体系统三大技术范式的统一评测。对于大语言模型,重点考察其在医学知识问答、病历文书生成、临床决策支持等任务上的准确性、完整性和逻辑性;对于多模态大模型,创新性地设计了"图像-文本"联合推理评测任务,模拟放射科医师阅片诊断的真实流程;对于智能体系统,则通过构建虚拟临床环境,评估其在复杂诊疗路径规划、多学科会诊协同等方面的能力。
特别值得关注的是,MedBench 4.0首次引入了"动态对抗评测"机制。系统会自动生成对抗性测试样本,检测模型在面对罕见病、疑难病例以及数据分布偏移时的鲁棒性。同时,平台还建立了"能力-风险"二维评估矩阵,不仅评价模型性能表现,还量化评估其在误诊漏诊、隐私泄露、伦理风险等方面的潜在危害,为医疗机构选型提供更为全面的决策依据。
在数据安全方面,MedBench 4.0采用"数据可用不可见"的隐私计算技术,所有评测数据均脱敏处理并在可信执行环境中运行,确保患者隐私信息绝对安全。平台还支持本地化部署模式,允许医疗机构在内部网络环境中完成模型评测,满足大型医院对数据不出院区的合规要求。
四、《医疗大模型应用安全实施指南》:划定创新边界
与评测联盟成立同等重要的成果是《医疗大模型应用安全实施指南》标准草案的发布。这是国内首个专门针对医疗大模型安全应用的技术标准,填补了该领域长期存在的规范空白。
标准起草组组长、复旦大学附属中山医院计算机网络中心副主任张俊钦在大会上对《指南》核心内容进行了深度解读。他指出,医疗大模型的安全风险具有独特性,既不能简单套用通用AI安全框架,也不能完全遵循传统医疗器械监管模式。《指南》创新性地提出了"全生命周期安全管控"理念,将医疗大模型的安全要求划分为研发安全、数据安全、模型安全、应用安全和监管安全五个层级。
在研发安全层面,《指南》要求医疗大模型必须建立基于循证医学的数据治理体系,训练数据来源需经过严格的文献溯源和专家验证,禁止使用网络爬取的未经验证的医疗信息。同时,模型架构设计应遵循"可解释性优先"原则,关键诊断决策必须能够提供可视化证据链和置信度评估。
数据安全方面,《指南》明确了医疗数据使用的"最小必要"原则,规定模型训练所使用的患者数据必须经过匿名化处理,并建立数据使用审计追踪机制。特别强调,任何涉及基因数据、传染病数据和精神疾病数据的模型研发,必须通过伦理委员会专项审查。
模型安全章节设立了医疗大模型性能基线要求,规定在核心诊疗任务上的准确率必须达到或超过中级职称医师水平,且在不同年龄、性别、地域患者群体间的性能差异不得超过5%。《指南》还首创了"医疗AI红队测试"方法,要求模型在上市前必须通过模拟恶意攻击测试,验证其对提示注入、数据投毒等对抗性攻击的防御能力。
应用安全部分针对临床部署场景提出具体要求,包括模型输出结果必须标注"AI辅助诊断"标识,禁止直接作为最终诊断结论;建立人机协同决策机制,确保医师保留最终决策权;构建实时监测和快速召回机制,当模型性能出现衰减或异常时能够及时干预。
张俊钦副主任结合中山医院的实践经验,分享了《指南》在具体场景中的应用案例。以AI辅助肺癌诊断为例,系统必须同时具备结节检测、良恶性判别、分期评估和报告生成四项能力,每项能力都需达到预设的灵敏度和特异度指标。在风险防控方面,医院建立了"AI建议-医师审核-质控抽查"三级验证体系,AI诊断意见仅作为参考,最终报告必须由主治医师签字确认,病理科每月对AI诊断病例进行随机抽检,确保医疗质量和安全。
五、"人机大战"实战演示:科技与专业的巅峰对决
大会最具观赏性和讨论度的环节当属"人机大战"实战演示。主办方精心设计了三个典型临床场景,分别考察AI与医疗团队在疑难病例诊断、多学科会诊决策和急诊危重症处理方面的能力。
首场对决围绕一例罕见遗传病展开。病例资料显示,患者为8岁男童,表现为进行性肌无力、心肌肥厚和视网膜病变。人类团队由复旦大学儿科医院神经内科、心内科和眼科三位主任医师组成,AI方则是基于Med-Go医学基座模型微调的智能诊断系统。在30分钟限时诊断环节,人类专家通过查阅文献、远程会诊、基因检测建议等流程,最终锁定"线粒体脑肌病伴乳酸血症和卒中样发作(MELAS)综合征"的诊断,并提出线粒体DNA检测验证方案。AI系统在输入病例信息后,仅用3分钟即生成诊断报告,列出五种可能疾病并按概率排序,MELAS综合征以78%的置信度位列第一,同时自动关联了最新的治疗指南和临床试验信息。经现场评审团投票,AI在诊断效率上获胜,但人类专家在诊断逻辑的完整性和对家属沟通的细节把握上更胜一筹。
第二场对决模拟肝胆胰肿瘤多学科会诊(MDT)。病例为局部晚期胰腺癌患者,需要制定手术、化疗、放疗的综合治疗方案。人类团队由中山医院普外科、肿瘤内科、放疗科、影像科组成的MDT核心小组代表,AI系统则整合了手术规划、药物敏感性预测、放疗剂量优化等多个专科模块。在方案制定环节,人类团队花费45分钟,基于患者体能状态、肿瘤标志物、影像特征等因素,建议先行新辅助化疗2周期后评估手术指征。AI系统在10分钟内生成三套治疗方案,并附上了每项方案的循证证据等级、预期生存获益和不良反应概率。值得注意的是,AI方案中推荐的化疗药物组合包含了最新获批的靶向药物,而人类团队由于临床习惯未首先考虑该选项。经过现场30位临床专家的盲评投票,AI方案在创新性和个体化程度上获得更高评价。
第三场急诊场景中,AI展现了在信息整合和预警预测方面的优势。病例为车祸多发伤患者,伴有失血性休克征象。AI系统在接入门急诊数据后,实时监测生命体征变化,提前3分钟预警弥散性血管内凝血(DIC)风险,并自动启动大量输血方案。人类团队虽然最终处理得当,但在风险预判的及时性上稍显滞后。
东方医院院长陈义汉院士在点评中指出,"人机大战"的目的不是分出高下,而是探索最佳的人机协同模式。AI的优势在于知识记忆、快速计算和模式识别,而人类医师的价值在于临床直觉、价值判断和医患共情。未来的医疗应该是"Human-in-the-loop"的增强智能模式,而非简单的替代关系。
六、院士主旨演讲:指引行业发展方向
大会特邀两位中国科学院院士发表主旨演讲,为医学人工智能发展提供顶层思考。
复旦大学附属中山医院名誉院长樊嘉院士以《综合类国家医学中心全场景智能化的顶层设计和探索实践》为题,系统阐述了中山医院在"十五五"期间的智能化建设规划。作为国家综合类医学中心的依托单位,中山医院计划构建"1+3+N"的智能化体系:"1"是建设统一的医疗AI数据中台,整合全院近40年的电子病历、影像数据和生物样本信息;"3"是打造智能诊疗、智能科研、智能管理三大核心平台;"N"是培育覆盖所有临床专科的AI应用场景。
樊嘉院士特别强调了数据质量对AI应用的决定性作用。他介绍,中山医院已建成国内最大的结构化肝病专病数据库,收录超过20万例肝癌患者的全周期诊疗数据,每例数据平均包含1200个结构化字段和5000张影像切片。基于该数据库训练的肝癌AI辅助诊断系统,在早诊早筛方面的灵敏度达到94.7%,特异度为91.2%,已在全国200余家基层医院部署应用。未来五年,医院将投入5亿元专项资金,建设10个具有国际影响力的专病数据库,并制定相应的数据标准和技术规范。
同济大学附属东方医院院长陈义汉院士则重点介绍了由该院牵头研发的通用医学基座模型Med-Go。该模型从零开始训练,使用了超过300亿token的高质量医学文本数据,包括权威医学教材、临床指南、药品说明书、最新科研文献以及经过脱敏处理的电子病历。与通用大模型相比,Med-Go在医学知识问答任务上的准确率提升37个百分点,在病历生成任务的可接受率达到89%。
陈院士指出,Med-Go的核心创新在于引入了"医学知识增强"训练范式。模型训练过程中,并非简单地记忆文本模式,而是通过知识图谱引导,学习医学概念之间的逻辑关系。例如,在学习"心肌梗死"这一概念时,模型同时掌握其病因、病理生理、临床表现、诊断标准、鉴别诊断、治疗方案和预后评估等完整知识体系。这种结构化知识表示方法,使得模型在面对复杂临床问题时能够进行多步推理,而非简单的模式匹配。目前,基于Med-Go已开发出心血管、呼吸、消化等12个专科的轻量化模型,参数规模从7B到70B不等,可满足不同应用场景的需求。
七、首届技能大赛:挖掘应用创新典范
大会期间举行的首届上海市医学人工智能应用技能大赛颁奖仪式,集中展示了基层医疗机构和企业在AI应用创新方面的丰硕成果。大赛设"AI+智慧医疗""AI+智慧管理""AI+智慧服务"三大赛道,吸引了来自全市16个区268家单位报名参赛,提交作品超过500件。
在智慧医疗赛道,复旦大学附属眼耳鼻喉科医院提交的"耳内镜AI实时辅助诊断系统"荣获一等奖。该系统能够在耳内镜检查过程中,实时识别鼓膜穿孔、中耳积液、胆脂瘤等23种常见病变,诊断准确率达95%以上。系统创新性采用边缘计算架构,延时小于200毫秒,真正实现了"检查即诊断"的临床模式。目前已在该院及5家医联体单位部署,累计服务患者超过3万例。
智慧管理赛道的获奖项目"基于数字孪生的手术室智能调度系统"由上海交通大学医学院附属仁济医院研发。系统通过构建手术室、人员、设备的三维数字孪生体,运用强化学习算法优化手术排程,使手术室周转效率提升18%,接台时间缩短30%,每月可增加近100台手术容量,有效缓解了大型三甲医院手术资源紧张的难题。
智慧服务赛道的一等奖作品"AI心理陪伴师"由徐汇区精神卫生中心与科技企业联合开发。针对青少年心理健康问题日益凸显的社会需求,该系统采用情感计算和多模态交互技术,通过语音、表情和文字识别用户情绪状态,提供个性化的心理疏导和危机干预。系统在保护用户隐私的前提下,已服务超过2万名青少年,获得家长和学校的高度认可。
上海市总工会副主席桂晓燕在颁奖时指出,技能大赛不仅是对创新成果的检阅,更是对医务职工数字素养的提升。市总工会将联合相关部门,建立医疗AI创新人才的长效培养机制,为上海乃至全国输送更多既懂临床又懂技术的复合型人才。
八、产业生态构建:打造全球医学AI高地
本次大会不仅是一次学术盛会,更是产业生态构建的重要平台。会议期间,上海人工智能实验室与徐汇区政府签署战略合作协议,共同建设"上海医学人工智能创新港"。该项目选址徐汇滨江,规划建筑面积15万平方米,将集聚医疗AI算法研发、数据服务、产品测评、注册审批、示范应用等全产业链资源,打造"一栋楼就是一条产业链"的创新生态。
徐汇区区长王华介绍,徐汇作为上海科创中心的重要承载区,已集聚了超过200家医疗AI相关企业,年产值突破300亿元。区政府将出台专项政策,对入驻创新港的企业给予最高500万元的落户奖励,对通过MedBench评测认证的产品优先纳入《上海市创新产品推荐目录》,并在临床应用端提供10个三甲医院的示范应用场景。同时,设立规模10亿元的医疗AI产业创投基金,支持初创企业技术攻关和市场拓展。
申康医院发展中心党委书记赵丹丹透露,申康正在牵头建设"市级医疗AI应用监管平台",将接入全市38家市级医院的AI应用系统,实现实时监测、效果评估和风险管理。平台将与医学人工智能评测联盟的数据互联互通,形成"研发-评测-应用-监管"的闭环管理体系。对于风险可控、效果明确的产品,申康将协调各家医院统一采购,降低应用成本;对于存在争议的新技术,则组织专家委员会进行伦理审查和技术论证。
华为公司医疗行业首席专家张伟在产业论坛上表示,医疗AI的发展离不开强大的算力基础设施支撑。华为正在上海建设医疗专用智算中心,提供从芯片、框架到应用的全栈国产化解决方案。该中心将面向联盟成员开放,提供普惠算力服务,降低医疗AI研发门槛。同时,华为联合实验室开发了面向医疗场景的国产生态加速库,使大模型训练效率提升40%,推理速度提高3倍。
九、挑战与展望:走向规范化、规模化、全球化
尽管我国医学人工智能发展取得了显著成就,但与会专家也清醒认识到面临的挑战。国家卫生健康委医政司副司长郑桐森指出,当前医疗AI产品同质化现象严重,超过60%的产品集中在肺结节、眼底病变等少数几个影像领域,对临床急需的罕见病、疑难杂症关注不足。同时,数据孤岛问题依然突出,不同医院、不同系统间的数据标准不统一,制约了大规模训练数据的构建。
上海人工智能实验室主任助理乔宇教授认为,评测标准的国际化是下一步重点工作。目前全球尚未形成统一的医疗AI评测标准,这为中国发挥引领作用提供了机遇。实验室已启动与世界卫生组织(WHO)、国际医学信息学会(IMIA)等国际组织的标准对接工作,计划将MedBench评测体系推向"一带一路"沿线国家,帮助发展中国家建立医疗AI治理能力。
在技术前沿方向,大会特别设置了"AGI时代的医学人工智能"专题研讨。与会专家普遍认为,当前的医疗大模型仍处于"窄人工智能"阶段,距离真正的通用医学智能还有相当距离。未来的突破可能来自几个方面:一是与生命科学深度结合,将分子机制、信号通路等底层生物学知识融入模型;二是发展因果推理能力,使AI能够理解疾病发生发展的因果链条,而非简单的相关性预测;三是实现个性化建模,基于患者的基因组、微生物组、代谢组等多组学数据构建数字孪生体,提供真正意义上的精准医疗。
范先群院士在闭幕致辞中总结道,医学人工智能的发展必须守住三条底线:一是安全底线,任何技术应用都不能以牺牲患者安全为代价;二是伦理底线,要始终坚持以患者为中心,保护隐私,维护尊严;三是公平底线,要确保技术红利惠及全体人民,避免加剧医疗资源不均衡。他呼吁全行业携手共建开放、协作、共赢的创新生态,推动中国从医疗AI大国迈向医疗AI强国。
十、结语

浦江医学人工智能大会的成功举办,以及医学人工智能评测联盟的成立,标志着我国医疗AI产业发展进入了一个全新的历史阶段。从技术研发到标准制定,从性能评测到安全监管,从单点应用到生态构建,一套完整的发展体系正在上海这片创新热土上加速成型。

2.jpg

MedBench 4.0评测平台如同一把精准的标尺,为衡量医疗AI产品性能提供了科学依据;《医疗大模型应用安全实施指南》则如同一盏明灯,为技术创新划定了安全边界;而医学人工智能评测联盟更如同一个强大的磁场,将政产学研用各方力量凝聚在一起,形成推动行业健康发展的强大合力。
面对未来,我们有理由相信,在政府部门的战略引领下,在院士专家的顶层指导下,在医疗机构和企业的协同创新下,中国医学人工智能必将走出一条具有中国特色的高质量发展道路,为全球医疗健康事业贡献中国智慧和中国方案。正如大会主题所言——"智汇医学,AI无界",当人工智能的无限可能遇上医学的仁心仁术,必将开创人类健康事业更加美好的明天。


×
全国服务热线 : 15910331759