更多精彩 >

重磅发现!DeepSeekR1方法成功迁移到视觉领域,多模态AI迎来新突破!

2025-02-23 14:41:12   来源:网易  作者: 

摘要:近日,从杭州一家知名大模型公司联汇科技获悉,赵天成博士带领OmAILab团队成功把DeepSeekR1从纯文本领域成功迁移到了视觉语言领域

近日,浙江大学博导赵天成博士带领Om AI Lab团队成功把DeepSeek R1从纯文本领域成功迁移到了视觉语言领域,这是DeepSeek R1模型首次突破到视觉推理层面。该模型为VLM-R1视觉语言模型,已经具备精确的视频理解和推理能力,证实了R1方法的通用性,为多模态模型的训练打开了想象空间。

这个项目的灵感来自去年DeepSeek开源的那个R1方法,靠着GRPO(Generative Reward Processing Optimization)强化学习方法,在纯文本大模型上取得了惊人的效果。

现在,VLM-R1团队直接把它应用到了视觉语言模型上,打开了一扇新的大门!

#VLM-R1验证结果惊艳#

这个项目的团队在 Qwen2.5-VL 的基础上,同时对比了 R1 和传统的 SFT 方法。结果相当惊艳:

1、稳定性拉满:R1 方法在各种复杂场景下都能保持稳定的高性能,这在实际应用至关重要!

2. 泛化能力卓越:更让人震惊的是,在领域外的测试数据上,随着训练步数增加,传统 SFT 模型的性能开始下滑,而 R1 模型却能持续提升!这意味着 R1 方法帮助模型真正“学会”了理解视觉内容,而不是简单地记忆!

9.jpg

(训练和测试领域的差异对比)

10.jpg

(泛化性对比,绿线是VLM-R1,在领域外泛化性显著更优)

3、上手超简单:VLM-R1项目团队还贴心地提供了完整的训练和评估流程,四步就能开始训练,对开发者十分友好。

#小编亲测#之后,在此分享一个实际案例,结果让人意外

 

11.jpg

图片里展示了一桌子丰盛的美食,包括各种蔬菜、面饼和点心。针对图片,我们向模型提出了一个问题:“在图片中找出蛋白质含量最高的食物”。

模型不仅回答得准确:

“图片中展示了桌上的各种菜品,包括蔬菜、面饼和点心。从蛋白质含量来看,面饼或面点可能含量最高,因为它们通常由全谷物制成,面粉中含有蛋白质。虽然蔬菜也含有蛋白质,但比起这些主食来说含量较少。”

更厉害的是,它还精准地在图片中框选出了那个蛋白质含量最高的鸡蛋饼!

这种精确的视觉理解能力和推理能力,让人印象深刻!

完美展示了 VLM-R1 在实际应用中的优势:

- 准确的视觉识别能力

- 专业的知识推理能力

- 清晰的文本表达能力

#全新思路#

作为一个AI领域的观察者,VLM-R1的出现也为开发者和行业提供了许多新的思路,比如:

1、证明了R1方法的通用性,不止文本领域玩得转;

2、为多模态模型的训练提供了新思路;

3、或许能够引领一种全新的视觉语言模型训练潮流;

#完全开源#

最棒的是,这个优秀的项目完全开源!

项目地址:[VLM-R1](https://github.com/om-ai-lab/VLM-R1)

对视觉语言模型感兴趣的同学,强烈建议去看看这个项目。说不定你的下一个突破性研究就从这里开始!

最后,期待看到更多开发者加入进来,一起推动多模态 AI 技术的发展。如果你也对这个项目感兴趣,欢迎加群讨论!

12.jpg


猜你喜欢

复兴资本独家投资浙江生意邦科技有限公司,加码“AI+产业”营销新基建

创新创业浙江生意邦科技有限公司

近日,浙江省数字营销服务领域传来双重喜讯:在刚结束的2025年度行业评选中,凭借在GEO(地域定向)...

10小时前

阿里人创业年会:36创携手校友内外,共创AI时代“韧性生长”之道

创新创业36创

从“大厂同事”到“创业战友”,“阿里创业军团”年度聚首——2026阿里蚂蚁校友创业年会。

10小时前

“找到、找好、专属好”:灵工打卡定义高质量灵活就业新范式

创新创业灵工打卡

“我们工作的核心,是‘找到、找好、专属好’。这不仅是一份工作,更是一份被看见的尊严。”

1天前

小太阳5秒可引燃可燃物,现存取暖相关企业超3.4万家

创新创业天眼查

小太阳5秒可引燃可燃物,现存取暖相关企业超3.4万家

2025-12-03

冰雪运动“黄金时刻”开启,现存相关企业超1.4万家

大消费天眼查

冰雪运动“黄金时刻”开启,现存相关企业超1.4万家

2025-12-03

各地滑雪场积极备战新雪季,现存滑雪相关企业超1.2万家

大消费天眼查

各地滑雪场积极备战新雪季,现存滑雪相关企业超1.2万家

2025-12-03

原创

十年坚守,公益同行!数禾科技用行动诠释 “金融为民” 的初心与担当

金融科技数禾科技

作为金融事业的核心价值理念,“普惠”一直是中国特色金融事业的重要抓手,在促进共同富裕、推动经济高质量...

2025-12-03

业绩与实力双轮驱动宏利香港2025Q3续写行业领航篇章

金融科技宏利

2025 年第三季度,宏利保险延续高增长态势,交出了一份兼具规模与质量的成绩单。

2025-12-03

新网银行在“最朝阳”网球嘉年华,闪耀品牌温度

金融科技新网银行

11月1日,国家网球中心钻石球场再次见证了一场激情与温度并存的体育盛事——2025“最朝阳”网球嘉年...

2025-12-03

伦敦金投资选什么平台靠谱?万洲金业值得选吗?

金融科技万洲金业

伦敦金是目前市场上比较常见的投资产品,由于其行情波动活跃,且交易机会众多,成为了很多投资者的必选投资...

2025-12-03

2025十大国内贵金属交易平台排名

金融科技贵金属交易平台

在当今投资市场日益多元化的背景下,贵金属作为一种兼具避险与增值功能的资产类别,持续吸引着大量投资者的...

2025-12-03

关于杭州湾上虞经济技术开发区

上虞经济技术开发区

杭州湾上虞经济技术开发区(浙江省上虞经济开发区)地处杭州湾南岸,位于上海、杭州、宁波三大城市圈中心位...

2025-03-15

浙江上虞概况

浙江上虞

上虞区位突出、优势明显。

2025-02-18

投资家网(www.investorscn.com)是国内领先的资本与产业创新综合服务平台。为活跃于中国市场的VC/PE、上市公司、创业企业、地方政府等提供专业的第三方信息服务,包括行业媒体、智库服务、会议服务及生态服务。长按右侧二维码添加"投资哥"可与小编深入交流,并可加入微信群参与官方活动,赶快行动吧。

第四届中国研究生金融科技创新大赛在南京收官

第四届中国研究生金融科技创新大赛在南京收官

12月28日,第四届中国研究生金融科技创新大赛在南京落幕。

京杭对话:杭州,凭什么吸引北京创新企业?

京杭对话:杭州,凭什么吸引北京创新企业?

从一张精准的产业蓝图,到一个敏捷的创新操作系统,再到一片丰沃的赋能土壤,杭州的生产性服务业正在这条路...

第19届中国投资年会·有限合伙人峰会在沪成功举办

第19届中国投资年会·有限合伙人峰会在沪成功举办

11月27日,由投中信息和投中网主办的第19届中国投资年会·有限合伙人峰会在上海举办。

“京杭聚势,共启新篇”:招商新路径,奏响区域协同发展强音

“京杭聚势,共启新篇”:招商新路径,奏响区域协同发展强音

在区域经济协同发展的大背景下,京杭两地的经济协作正以一种全新的姿态加速推进。

第19届中国投资年会·有限合伙人峰会即将在沪启幕

第19届中国投资年会·有限合伙人峰会即将在沪启幕

作为中国股权投资领域备受瞩目的年度盛会,第19届中国投资年会·有限合伙人峰会定于2025年11月26...