更多精彩 >

重磅发现!DeepSeekR1方法成功迁移到视觉领域,多模态AI迎来新突破!

2025-02-23 14:41:12   来源:网易  作者: 

摘要:近日,从杭州一家知名大模型公司联汇科技获悉,赵天成博士带领OmAILab团队成功把DeepSeekR1从纯文本领域成功迁移到了视觉语言领域

近日,浙江大学博导赵天成博士带领Om AI Lab团队成功把DeepSeek R1从纯文本领域成功迁移到了视觉语言领域,这是DeepSeek R1模型首次突破到视觉推理层面。该模型为VLM-R1视觉语言模型,已经具备精确的视频理解和推理能力,证实了R1方法的通用性,为多模态模型的训练打开了想象空间。

这个项目的灵感来自去年DeepSeek开源的那个R1方法,靠着GRPO(Generative Reward Processing Optimization)强化学习方法,在纯文本大模型上取得了惊人的效果。

现在,VLM-R1团队直接把它应用到了视觉语言模型上,打开了一扇新的大门!

#VLM-R1验证结果惊艳#

这个项目的团队在 Qwen2.5-VL 的基础上,同时对比了 R1 和传统的 SFT 方法。结果相当惊艳:

1、稳定性拉满:R1 方法在各种复杂场景下都能保持稳定的高性能,这在实际应用至关重要!

2. 泛化能力卓越:更让人震惊的是,在领域外的测试数据上,随着训练步数增加,传统 SFT 模型的性能开始下滑,而 R1 模型却能持续提升!这意味着 R1 方法帮助模型真正“学会”了理解视觉内容,而不是简单地记忆!

9.jpg

(训练和测试领域的差异对比)

10.jpg

(泛化性对比,绿线是VLM-R1,在领域外泛化性显著更优)

3、上手超简单:VLM-R1项目团队还贴心地提供了完整的训练和评估流程,四步就能开始训练,对开发者十分友好。

#小编亲测#之后,在此分享一个实际案例,结果让人意外

 

11.jpg

图片里展示了一桌子丰盛的美食,包括各种蔬菜、面饼和点心。针对图片,我们向模型提出了一个问题:“在图片中找出蛋白质含量最高的食物”。

模型不仅回答得准确:

“图片中展示了桌上的各种菜品,包括蔬菜、面饼和点心。从蛋白质含量来看,面饼或面点可能含量最高,因为它们通常由全谷物制成,面粉中含有蛋白质。虽然蔬菜也含有蛋白质,但比起这些主食来说含量较少。”

更厉害的是,它还精准地在图片中框选出了那个蛋白质含量最高的鸡蛋饼!

这种精确的视觉理解能力和推理能力,让人印象深刻!

完美展示了 VLM-R1 在实际应用中的优势:

- 准确的视觉识别能力

- 专业的知识推理能力

- 清晰的文本表达能力

#全新思路#

作为一个AI领域的观察者,VLM-R1的出现也为开发者和行业提供了许多新的思路,比如:

1、证明了R1方法的通用性,不止文本领域玩得转;

2、为多模态模型的训练提供了新思路;

3、或许能够引领一种全新的视觉语言模型训练潮流;

#完全开源#

最棒的是,这个优秀的项目完全开源!

项目地址:[VLM-R1](https://github.com/om-ai-lab/VLM-R1)

对视觉语言模型感兴趣的同学,强烈建议去看看这个项目。说不定你的下一个突破性研究就从这里开始!

最后,期待看到更多开发者加入进来,一起推动多模态 AI 技术的发展。如果你也对这个项目感兴趣,欢迎加群讨论!

12.jpg


猜你喜欢

vivo出席博鳌亚洲论坛国际科技与创新论坛2025年香港会议,共话人工智能未来图景

创新创业vivo

6月6日至7日,博鳌亚洲论坛国际科技与创新论坛2025年香港会议于香港会议展览中心隆重举行。

27分钟前

礼业新纪元:第33届深圳礼品展缔造30万买家的全球商贸盛宴

创新创业励展华博深圳礼品家居展

2025年4月25日至28日,由励展华博主办的亚洲规模领先礼业旗舰展——第33届中国(深圳)国际礼品...

35分钟前

浩鲸科技携手上海电信喜获中国信通院DataOps创新产品

创新创业浩鲸科技

近日,中国信通院2025年DataOps发展大会成功召开,本次大会聚焦“AI-Ready”主题,发布...

49分钟前

问界携手2025年中国金鸡百花电影节 共启"科技+电影艺术"跨界融合新境界

创新创业问界

6月7日,问界与中国金鸡百花电影节达成战略合作,正式成为2025年中国金鸡百花电影节的全程战略合作伙...

50分钟前

开门第一烧丨海辰储能完成全球首次开门燃烧试验

创新创业海辰储能

近日,海辰储能∞Block 5MWh储能系统成功完成全球首次开门极限燃烧试验,这一突破性成果为储能系...

5小时前

不法分子利用AI造谣博流量,我国现存人工智能相关企业数量超424.3万家

天眼查智能+

近期,一些不法分子利用AI技术编造谣言,严重扰乱社会秩序。

2025-04-17

《流浪地球3》官宣开机引发网友热议,我国现存超85万家影视企业

天眼查文化传媒

2025年4月15日,电影《流浪地球3》宣布开机,并发布首张概念海报,宣告这场跨越星河的“流浪之旅”...

2025-04-17

3月36家中国手游厂商共吸金20亿美元,我国现存超55万家游戏商

创新创业天眼查

近日,移动市场情报平台Sensor Tower发布《2025年3月中国手游发行商全球收入排行榜》,数...

2025-04-17

一季度国内风电中标量实现翻倍,我国现存超10.4万家风电厂商

创新创业天眼擦

据风芒能源不完全统计,2025年一季度,国内11家风电整机商共中标200个项目,中标规模总计33.2...

2025-04-17

两部门印发方案开启新一代煤电升级专项行动,我国现存火电企业超4000家

创新创业天眼查

近日,国家发展改革委、国家能源局联合印发《新一代煤电升级专项行动实施方案(2025—2027年)》,...

2025-04-17

人脸信息安全保护出新规,我国现存人脸识别相关企业超4900家

创新创业天眼查

人脸识别技术虽便利了生活,却也引发了公众对个人信息安全的担忧。

2025-04-17

新能源汽车变身城市“充电宝” 我国现存超74.2万家充电桩相关企业

新能源天眼查

近日,国家发展改革委、国家能源局等四部门联合公布我国首批车网互动规模化应用试点城市和项目,总数共计3...

2025-04-17

竞合之间:中美经贸变局下的中国外贸产业图谱

金融科技天眼查

在全球经贸格局深度调整的背景下,中美两大经济体的互动深刻影响着中国企业的外贸路径。

2025-04-17

前2月全球动力电池装车量同比增四成,我国现存超6000家动力电池企

新能源天眼查

韩国研究机构SNE Research发布全球动力电池最新统计报告,今年前两个月,全球动力电池装车总量...

2025-04-17

投资家网(www.investorscn.com)是国内领先的资本与产业创新综合服务平台。为活跃于中国市场的VC/PE、上市公司、创业企业、地方政府等提供专业的第三方信息服务,包括行业媒体、智库服务、会议服务及生态服务。长按右侧二维码添加"投资哥"可与小编深入交流,并可加入微信群参与官方活动,赶快行动吧。

博进生物C+轮融资落地,药物分离纯化技术国产替代加速

博进生物C+轮融资落地,药物分离纯化技术国产替代加速

众钠能源A轮收官募资近3亿,全球钠电赛道融资新高

众钠能源A轮收官募资近3亿,全球钠电赛道融资新高

坐标系再揽2亿融资,EMB赛道创累计4亿纪录

坐标系再揽2亿融资,EMB赛道创累计4亿纪录

国奥科技获深创投数千万元A轮投资,加码高精度直线电机研发

国奥科技获深创投数千万元A轮投资,加码高精度直线电机研发

本末科技斩获数亿融资,直驱关节年交付冲刺千万台

本末科技斩获数亿融资,直驱关节年交付冲刺千万台

分化浪潮中的坚守与突破 | 第19届中国投资年会,即将启幕

分化浪潮中的坚守与突破 | 第19届中国投资年会,即将启幕

在时代的浩渺长河中,“分化”宛如一条隐匿的脉络,贯穿于万物的生长、发展与变迁。从生命的进化到文明的演...

第二届中匈可再生能源、新材料商业投资峰会将盛大启幕

第二届中匈可再生能源、新材料商业投资峰会将盛大启幕

第二届中匈可再生能源、新材料商业投资峰会于2025年4月9日在匈牙利布达佩斯盛大启幕。

雕刻耐心|第18届中国投资年会·有限合伙人峰会在沪召开

雕刻耐心|第18届中国投资年会·有限合伙人峰会在沪召开

“中国投资年会”作为私募股权行业的年度盛会,已成功举办了18届,吸引了全国VC/PE领域从业者的广泛...