更多精彩 >

重磅发现!DeepSeekR1方法成功迁移到视觉领域,多模态AI迎来新突破!

2025-02-23 14:41:12   来源:网易  作者: 

摘要:近日,从杭州一家知名大模型公司联汇科技获悉,赵天成博士带领OmAILab团队成功把DeepSeekR1从纯文本领域成功迁移到了视觉语言领域

近日,浙江大学博导赵天成博士带领Om AI Lab团队成功把DeepSeek R1从纯文本领域成功迁移到了视觉语言领域,这是DeepSeek R1模型首次突破到视觉推理层面。该模型为VLM-R1视觉语言模型,已经具备精确的视频理解和推理能力,证实了R1方法的通用性,为多模态模型的训练打开了想象空间。

这个项目的灵感来自去年DeepSeek开源的那个R1方法,靠着GRPO(Generative Reward Processing Optimization)强化学习方法,在纯文本大模型上取得了惊人的效果。

现在,VLM-R1团队直接把它应用到了视觉语言模型上,打开了一扇新的大门!

#VLM-R1验证结果惊艳#

这个项目的团队在 Qwen2.5-VL 的基础上,同时对比了 R1 和传统的 SFT 方法。结果相当惊艳:

1、稳定性拉满:R1 方法在各种复杂场景下都能保持稳定的高性能,这在实际应用至关重要!

2. 泛化能力卓越:更让人震惊的是,在领域外的测试数据上,随着训练步数增加,传统 SFT 模型的性能开始下滑,而 R1 模型却能持续提升!这意味着 R1 方法帮助模型真正“学会”了理解视觉内容,而不是简单地记忆!

9.jpg

(训练和测试领域的差异对比)

10.jpg

(泛化性对比,绿线是VLM-R1,在领域外泛化性显著更优)

3、上手超简单:VLM-R1项目团队还贴心地提供了完整的训练和评估流程,四步就能开始训练,对开发者十分友好。

#小编亲测#之后,在此分享一个实际案例,结果让人意外

 

11.jpg

图片里展示了一桌子丰盛的美食,包括各种蔬菜、面饼和点心。针对图片,我们向模型提出了一个问题:“在图片中找出蛋白质含量最高的食物”。

模型不仅回答得准确:

“图片中展示了桌上的各种菜品,包括蔬菜、面饼和点心。从蛋白质含量来看,面饼或面点可能含量最高,因为它们通常由全谷物制成,面粉中含有蛋白质。虽然蔬菜也含有蛋白质,但比起这些主食来说含量较少。”

更厉害的是,它还精准地在图片中框选出了那个蛋白质含量最高的鸡蛋饼!

这种精确的视觉理解能力和推理能力,让人印象深刻!

完美展示了 VLM-R1 在实际应用中的优势:

- 准确的视觉识别能力

- 专业的知识推理能力

- 清晰的文本表达能力

#全新思路#

作为一个AI领域的观察者,VLM-R1的出现也为开发者和行业提供了许多新的思路,比如:

1、证明了R1方法的通用性,不止文本领域玩得转;

2、为多模态模型的训练提供了新思路;

3、或许能够引领一种全新的视觉语言模型训练潮流;

#完全开源#

最棒的是,这个优秀的项目完全开源!

项目地址:[VLM-R1](https://github.com/om-ai-lab/VLM-R1)

对视觉语言模型感兴趣的同学,强烈建议去看看这个项目。说不定你的下一个突破性研究就从这里开始!

最后,期待看到更多开发者加入进来,一起推动多模态 AI 技术的发展。如果你也对这个项目感兴趣,欢迎加群讨论!

12.jpg


猜你喜欢
原创

北京博达盛业企业管理有限公司成功完成800万元天使轮融资

创新创业博达盛业

近日,北京博达盛业企业管理有限公司(以下简称:博达盛业)正式宣布完成800万元天使轮融资。

1天前

鸿蒙公开课·总裁校园行2025收官:从高校人才到千亿生态的崛起之路

创新创业鸿蒙

市场调查机构CounterPoint Research最新数据显示,在中国移动操作系统市场,华为鸿蒙...

1天前

江松科技与时代星云签署战略合作协议

创新创业江松科技时代星云

近日,无锡江松科技股份有限公司与福建时代星云科技有限公司正式签署战略合作协议。

1天前

上海易源堂医药科技发展集团有限公司成功完成1.2亿元A轮融资,加速大健康产业全球化布局

创新创业易源堂

近日,上海易源堂医药科技发展集团有限公司(以下简称:易源堂)正式宣布完成1.2亿元人民币A轮融资。

1天前

秋冬美肤指南 | hfp果酸精粹水让肌肤细腻丝滑入冬

大消费| hfp果酸精粹水

作为三天两头加班的互联网牛马,额头下巴时不时冒出闭口,鼻翼两侧的黑头去而复返,更可怕的是熬夜后的暗沉...

2025-11-13

做美好生活的信心后盾——中信百信银行发布《百姓的信心银行》全新品牌宣传片

金融科技中信百信银行

近日,中信百信银行发布全新品牌宣传片《百姓的信心银行》,该品牌宣传片围绕小镇青年的安家进阶、小微企业...

2025-11-13

原创

A股最大游戏公司,被买爆了!

世纪华通如果能在两款爆款游戏之外,开发出新的爆款游戏,增加一大块营收来源,那么公司的价值将更会被市场...

2025-11-13

腾讯Q3财报超预期:营收同比增15%,核心主业收入均双位数增长

腾讯上市公司

腾讯控股(00700.HK)11月13日发布2025年第三季度财报,当季腾讯实现营收1928.7亿元...

2025-11-13

原创

创新药战略突围,亚太药业“仿创结合”的新模范样本

上市公司亚太药业

10月28日,第十一批国家组织药品集中带量采购公布中选结果,结果显示共有272家企业的453个产品获...

2025-11-13

原力不息、征途不止!东方空间“原力-110”液氧煤油发动机第2台整机热试车圆满成功

东方空间

​2025年11月,“原力-110”发动机整机热试车再获喜讯。

2025-11-13

生物育种助力棉花产业腾飞,现存涉棉企业超211.7万家

创新创业天眼查

生物育种助力棉花产业腾飞,现存涉棉企业超211.7万家

2025-11-13

进博会医疗器械创新潮涌,国内现存相关企业超619万家

大消费天眼查

进博会医疗器械创新潮涌,国内现存相关企业超619万家

2025-11-13

电影总票房已超去年全年,现存影院相关企业超9.2万家

天眼查文化传媒

电影总票房已超去年全年,现存影院相关企业超9.2万家

2025-11-13

广交会服务机器人成亮点,国内现存相关企业超880家

天眼查智能+

广交会服务机器人成亮点,国内现存相关企业超880家

2025-11-13

投资家网(www.investorscn.com)是国内领先的资本与产业创新综合服务平台。为活跃于中国市场的VC/PE、上市公司、创业企业、地方政府等提供专业的第三方信息服务,包括行业媒体、智库服务、会议服务及生态服务。长按右侧二维码添加"投资哥"可与小编深入交流,并可加入微信群参与官方活动,赶快行动吧。

京杭对话:杭州,凭什么吸引北京创新企业?

京杭对话:杭州,凭什么吸引北京创新企业?

从一张精准的产业蓝图,到一个敏捷的创新操作系统,再到一片丰沃的赋能土壤,杭州的生产性服务业正在这条路...

第19届中国投资年会·有限合伙人峰会在沪成功举办

第19届中国投资年会·有限合伙人峰会在沪成功举办

11月27日,由投中信息和投中网主办的第19届中国投资年会·有限合伙人峰会在上海举办。

“京杭聚势,共启新篇”:招商新路径,奏响区域协同发展强音

“京杭聚势,共启新篇”:招商新路径,奏响区域协同发展强音

在区域经济协同发展的大背景下,京杭两地的经济协作正以一种全新的姿态加速推进。

第19届中国投资年会·有限合伙人峰会即将在沪启幕

第19届中国投资年会·有限合伙人峰会即将在沪启幕

作为中国股权投资领域备受瞩目的年度盛会,第19届中国投资年会·有限合伙人峰会定于2025年11月26...

投资家网主办:“智造未来-人工智能与机器人”专场路演成功举办

投资家网主办:“智造未来-人工智能与机器人”专场路演成功举办

投资家网联合深圳市龙岗区人工智能(机器人)署于9月28日联合主办“智造未来——人工智能与机器人”专场...