2025-10-17 19:15:48 来源:百度 作者: 摘要:10月17日消息,HuggingFace官网显示,百度昨晚发布的自研多模态文档解析模型PaddleOCR-VL,发布20小时内即登顶HuggingFaceTrending全球第一。
10月17日消息,HuggingFace官网显示,百度昨晚发布的自研多模态文档解析模型PaddleOCR-VL,发布20小时内即登顶HuggingFace Trending全球第一。
据了解,该模型核心参数仅0.9B,轻量高效,能以极低计算开销精准识别文本、手写汉字、表格、公式、图表等复杂元素,支持109种语言。在权威榜单OmniBenchDoc V1.5中,它以92.6分获综合性能全球第一,四大核心能力全线SOTA,超越GPT-4o等模型,刷新OCR VL模型性能纪录。
作为文心4.5衍生模型,PaddleOCR-VL融合了NaViT动态分辨率视觉编码器与ERNIE-4.5-0.3B语言模型,实现精度与效率双突破。

近期,云知声与瓦努阿图共和国政府(经其驻华大使馆代表)(「瓦努阿图政府」)正式签署关于人工智能海外实...
2025-07-17第7届上海国际礼业博览会(以下简称“励展华博GH上海礼博会”)于7月17日在上海新国际博览中心盛大启...
2025-07-17在2025年上半年教育行业整体回暖的背景下,学大(厦门)教育科技集团股份有限公司(简称“学大教育”)...
2025-07-17投资家网(www.investorscn.com)是国内领先的资本与产业创新综合服务平台。为活跃于中国市场的VC/PE、上市公司、创业企业、地方政府等提供专业的第三方信息服务,包括行业媒体、智库服务、会议服务及生态服务。长按右侧二维码添加"投资哥"可与小编深入交流,并可加入微信群参与官方活动,赶快行动吧。
