上海人工智能实验室发布新版中国大型医学模型权威评估平台

作者: 365bet网址分类: 随心杂谈发布时间: 2025-12-03 09:56

中国经济网版权所有中国经济网新媒体矩阵网络广播视听节目许可证（0107190）（京ICP040090）近日，上海人工智能实验室发布了强大的中医分析平台Medbench 4.0。是国内首个针对垂直大模型、聚焦大模型、应用场景的医学大模型评估验证系统。业内人士表示，Medbench 4.0为衡量医疗AI产品的性能和可靠性提供了科学依据，保证了医疗AI产品质量的提升和行业的良性竞争。据悉，中国大型医学模型权威评审平台Medbench于2023年年中首次上线，目前已更新至第四版。上海人工智能实验室医学与评价中心主任徐杰表示，此次升级包括设计了三大主要技术范式：大语言模型、多模态大模型和智能代理。与国家《健康行业人工智能应用场景参考指南》高度契合，涵盖60套完整自测题，共计70万余道专业题。上海人工智能实验室记者发现，针对语言模型的大规模评估，平台围绕医学知识问答、语言理解、生成、复杂推理、安全安全等维度构建了评估集，并创新性地引入了pang-science指标体系，以减轻信息剔除或幻觉生成对分析结果的影响；针对多模态大模型分析，针对医学影像和检测报告等临床关键情况，平台可覆盖目标检测、成像等10个细分任务GE分类，填补多模态理解质控、图像理解、病程监测，填补中国多模态医学分析领域的技术空白；针对智能代理评估，该平台致力于解决智能代理执行错误的问题，推动医疗代理从“能沟通”向“执行、协作”进化。谈到分析医疗大模型的重要性，徐杰告诉记者，测试首先可以验证大医疗模型的符合性，其次验证其专业性，比如是否误诊、漏诊或开错药，最终将帮助市场提供更优质的医疗模型。记者注意到，目前已有Deep Search、Qianwen等多种通用型大型模型，那么，大型医疗模型的价值在哪里？对此，徐杰表示，主打大模型可以满足日常的健康咨询。测试表明，国产通用大型头模的医疗能力超过国外同类产品。然而，对于需要专业判断的医疗情况，例如在哪里进行检查、如何解读报告、开什么药或中药处方药等，大型模型还需要整合大量的医疗数据、专业病历、临床经验等语料库。大规模的医学模型可以高效处理海量信息并提供循证参考，有助于提高医生的诊断和治疗水平，弥补基层医疗的短板，实现医学的普惠。除了推出作者审稿平台外，上海人工智能实验室还与专业医疗机构及相关企业合作，推出医疗人工智能系统ch作为儿童眼科疾病智能筛查、精准干预系统和大胃肠多模态辅助诊疗模型的应用。

[db:TAG标签](1173)

如果觉得我的文章对您有用，请随意打赏。您的支持将鼓励我继续创作！