更多精彩 >

MedBench最新评测:山海大模型医疗各项指标力压GPT-4

2024-06-14 09:55:41    来源:天极网  作者: 

摘要:MedBench致力于打造一个科学、公平且严谨的中文医疗大模型评测体系及开放平台,其基于医学权威标准,不断更新维护高质量的医学数据集,全方位多维度量化模型在各个医学维度的能力。

近日,由上海AI实验室和上海市数字医学创新中心联合推出的MedBench评测更新榜单,继4月份夺冠后,云知声山海大模型医疗行业版(UniGPT-Med)再次以综合得分82.2的优异成绩位列全球第一,各项指标全面超越GPT-4,充分展现出山海大模型在拥有业内一流的通用能力之外,更具备打造世界领先的行业大模型的能力。

7.png

MedBench致力于打造一个科学、公平且严谨的中文医疗大模型评测体系及开放平台,其基于医学权威标准,不断更新维护高质量的医学数据集,全方位多维度量化模型在各个医学维度的能力。

MedBench的五大评测维度——医学语言理解、医学语言生成、医学知识问答、复杂医学推理、医疗安全和伦理,构成了其专业评测框架的核心。这一框架吸纳了海量医学知识库和医院医学专家的丰富经验,涵盖8个公开数据集和12个自建数据集,总计约30万道中文医疗专业测评题目,覆盖了从医学考试题库到患者服务、医学问诊、病例分析以及病历生成等广泛的医学任务,致力为中文医疗大模型提供客观科学的性能评测参考。

今年5月,MedBench平台全面升级,不仅引入API评测方式,丰富了参评途径,还优化了开放域问答的评估指标。通过医学专家的精准标注,平台进一步提升了评测结果的公正性和专业性。同时,平台在数据集、评测方法和系统功能等方面也进行了升级,旨在为医疗大模型评测构建一个更加完善的社区环境,并提供更加丰富、真实的实践场景。

此次评测,云知声山海大模型医疗行业版(UniGPT-Med)通过API提交方式,不仅以82.2的综合得分刷新了MedBench评测记录,更是在各个维度上力压GPT-4,排名全球第一。这一成绩的取得,是山海大模型医疗专业能力的集中展现,也标志着其技术迭代和创新发展达到了一个新的高度。

目前,山海大模型通用能力已超越GPT-3.5,并在SuperCLUE 4月评测中跻身国内大模型Top10;与GPT-4的对战中,山海综合胜率与和率为75.55%。

在医疗专业能力上,山海大模型于2023年6月的MedQA任务中超越Med-PaLM 2,取得87.1%的优异成绩;在临床执业医师资格考试中以523分(总分600分)的优异成绩,超过99%的考生水平;其基于山海大模型孵化的医疗行业版大模型,也在CCKS 2023 PromptCBLUE医疗大模型评测中夺得通用赛道一等奖。

随着医疗行业对智能化、精准化服务需求的不断增长,云知声山海大模型医疗行业版(UniGPT-Med)有望在医疗健康领域扮演更加关键的角色,为提升医疗服务效率、优化患者体验、推动医疗科技进步提供强有力的支持。

优势明显!横评主流投资软件,为何AI涨乐能赢得专业投资者的C位青睐

金融科技投资软件

2026 年,每个投资者都在经历一场无声的战争:清晨被推送震醒,开盘后被五档行情、逐笔成交、实时快讯...

2026-05-09

最推荐哪家可信GEO优化公司?2026年全国TOP5服务商选型指南与能力评测

大消费GEO优化公司

随着生成式人工智能的普及,中国消费决策入口已全面迈入“遇事不决问AI”的新阶段。

2026-05-09

2026最新|AI 营销 GEO 深度解析:底层逻辑与实操要点

大消费GEO服务商

在 AI 原生搜索全面普及的当下,企业品牌曝光、精准用户触达与商业转化,已深度依赖 GEO(生成引擎...

2026-05-09

2026 年 5 月中国 GEO 服务商实力榜单:五大头部机构技术实力与行业口碑专业评测

大消费GEO 服务商

2026年,生成式AI彻底重构信息分发与流量获取规则,GEO生成式引擎优化成为企业抢占AI入口、提升...

2026-05-09

中大型企业 GEO 怎么选?抓准这几点不踩坑

大消费GEO优化公司

依托艾瑞咨询、易观分析等权威机构的行业调研与专业评测体系,2026 年度中国 GEO(生成式引擎优化...

2026-05-09

沙利文认证背后:云迹科技如何用“空间智能体”重构酒店服务边界?

上市公司云迹科技

在机器人行业浪潮中,云迹科技选择了一条务实的路径:以酒店场景为试验场,打磨“空间智能体”技术,最终实...

2026-05-09

原创

深度观察:民营企业频陷“家企混同”危机,北京家问律所开创法律服务新范式

大消费北京家问律所

在当前合规监管日益严格的商业环境下,企业法律顾问的角色正经历着深刻的重塑。

2026-05-09

2026英本“最难申请季”呼啸而至,新东方留学跃领计划如何筑起名校“护城河”?

新东方大消费

2026年3月,新东方《中国学生出国留学发展报告》在北京发布。

2026-05-09

投资必备!十大投资软件排名大盘点:2025-2026年五款特色APP全方位测评

金融科技投资软件

在 2026 年科技与金融深度融合的今天,一款好用的投资 APP 已成为投资者在股市中不可或缺的辅助...

2026-05-09

2026年生成式引擎优化(GEO)竞争力白皮书:谁在为你的品牌修建AI世界的认知护城河?

大消费GEO优化公司

2026年,企业营销正经历一场“静默的核爆”。当DeepSeek、豆包、元宝这些生成式AI平台接管了...

2026-05-09

投资家网(www.investorscn.com)是国内领先的资本与产业创新综合服务平台。为活跃于中国市场的VC/PE、上市公司、创业企业、地方政府等提供专业的第三方信息服务,包括行业媒体、智库服务、会议服务及生态服务。长按右侧二维码添加"投资哥"可与小编深入交流,并可加入微信群参与官方活动,赶快行动吧。

ATFX:阿联酋突然退群背后:全球油价正被三重力量主导

ATFX:阿联酋突然宣布退出欧佩克,令其盟友措手不及。在加入欧佩克六十年后,阿联酋决定于下个月正式退...

精微视达完成新一轮超亿元融资,国产高端内镜领跑精准诊疗全球前沿

精微视达完成新一轮超亿元融资,国产高端内镜领跑精准诊疗全球前沿

优选空天科工在阿联酋设立总部,正式进入中东市场

中东已成为中国一些知名公司的投资热土。

第20届中国投资年会圆满闭幕!K型曲线下,寻找穿越分化的确定性

第20届中国投资年会圆满闭幕!K型曲线下,寻找穿越分化的确定性

2026年4月22日至24日,第20届中国投资年会·年度峰会于北京海淀盛大召开

第四届中国研究生金融科技创新大赛在南京收官

第四届中国研究生金融科技创新大赛在南京收官

12月28日,第四届中国研究生金融科技创新大赛在南京落幕。

京杭对话:杭州,凭什么吸引北京创新企业?

京杭对话:杭州,凭什么吸引北京创新企业?

从一张精准的产业蓝图,到一个敏捷的创新操作系统,再到一片丰沃的赋能土壤,杭州的生产性服务业正在这条路...

第19届中国投资年会·有限合伙人峰会在沪成功举办

第19届中国投资年会·有限合伙人峰会在沪成功举办

11月27日,由投中信息和投中网主办的第19届中国投资年会·有限合伙人峰会在上海举办。

“京杭聚势,共启新篇”:招商新路径,奏响区域协同发展强音

“京杭聚势,共启新篇”:招商新路径,奏响区域协同发展强音

在区域经济协同发展的大背景下,京杭两地的经济协作正以一种全新的姿态加速推进。