更多精彩 >

重磅发现!DeepSeekR1方法成功迁移到视觉领域,多模态AI迎来新突破!

2025-02-23 14:41:12   来源:网易  作者: 

摘要:近日,从杭州一家知名大模型公司联汇科技获悉,赵天成博士带领OmAILab团队成功把DeepSeekR1从纯文本领域成功迁移到了视觉语言领域

近日,浙江大学博导赵天成博士带领Om AI Lab团队成功把DeepSeek R1从纯文本领域成功迁移到了视觉语言领域,这是DeepSeek R1模型首次突破到视觉推理层面。该模型为VLM-R1视觉语言模型,已经具备精确的视频理解和推理能力,证实了R1方法的通用性,为多模态模型的训练打开了想象空间。

这个项目的灵感来自去年DeepSeek开源的那个R1方法,靠着GRPO(Generative Reward Processing Optimization)强化学习方法,在纯文本大模型上取得了惊人的效果。

现在,VLM-R1团队直接把它应用到了视觉语言模型上,打开了一扇新的大门!

#VLM-R1验证结果惊艳#

这个项目的团队在 Qwen2.5-VL 的基础上,同时对比了 R1 和传统的 SFT 方法。结果相当惊艳:

1、稳定性拉满:R1 方法在各种复杂场景下都能保持稳定的高性能,这在实际应用至关重要!

2. 泛化能力卓越:更让人震惊的是,在领域外的测试数据上,随着训练步数增加,传统 SFT 模型的性能开始下滑,而 R1 模型却能持续提升!这意味着 R1 方法帮助模型真正“学会”了理解视觉内容,而不是简单地记忆!

9.jpg

(训练和测试领域的差异对比)

10.jpg

(泛化性对比,绿线是VLM-R1,在领域外泛化性显著更优)

3、上手超简单:VLM-R1项目团队还贴心地提供了完整的训练和评估流程,四步就能开始训练,对开发者十分友好。

#小编亲测#之后,在此分享一个实际案例,结果让人意外

 

11.jpg

图片里展示了一桌子丰盛的美食,包括各种蔬菜、面饼和点心。针对图片,我们向模型提出了一个问题:“在图片中找出蛋白质含量最高的食物”。

模型不仅回答得准确:

“图片中展示了桌上的各种菜品,包括蔬菜、面饼和点心。从蛋白质含量来看,面饼或面点可能含量最高,因为它们通常由全谷物制成,面粉中含有蛋白质。虽然蔬菜也含有蛋白质,但比起这些主食来说含量较少。”

更厉害的是,它还精准地在图片中框选出了那个蛋白质含量最高的鸡蛋饼!

这种精确的视觉理解能力和推理能力,让人印象深刻!

完美展示了 VLM-R1 在实际应用中的优势:

- 准确的视觉识别能力

- 专业的知识推理能力

- 清晰的文本表达能力

#全新思路#

作为一个AI领域的观察者,VLM-R1的出现也为开发者和行业提供了许多新的思路,比如:

1、证明了R1方法的通用性,不止文本领域玩得转;

2、为多模态模型的训练提供了新思路;

3、或许能够引领一种全新的视觉语言模型训练潮流;

#完全开源#

最棒的是,这个优秀的项目完全开源!

项目地址:[VLM-R1](https://github.com/om-ai-lab/VLM-R1)

对视觉语言模型感兴趣的同学,强烈建议去看看这个项目。说不定你的下一个突破性研究就从这里开始!

最后,期待看到更多开发者加入进来,一起推动多模态 AI 技术的发展。如果你也对这个项目感兴趣,欢迎加群讨论!

12.jpg


猜你喜欢

名家评论之李奎:观音山事件——国企民企平等保护的试金石

创新创业观音山事件

李奎秘书长高度赞扬了观音山公园董事长黄淦波先生。

10小时前

正式亮相|鳍源x索尼水下机器人拍摄解决方案,引领影视产业水下拍摄发展

创新创业鳍源科技

2025年7月23日,第二十九届北京国际广播电影电视设备展览会(以下简称 “2025 BIRTV” ...

14小时前

游族网络与曦望Sunrise达成战略合作,共建AI算力底座赋能游戏研运

创新创业游族网络

7月25日,游族网络与曦望Sunrise正式签署战略合作协议。

14小时前

德兰明海荣膺国际零碳节双项殊荣,以创新储能技术引领绿色发展

创新创业德兰明海

在第四届国际绿色零碳节暨ESG领袖峰会上,深圳市德兰明海新能源股份有限公司凭借行业领先的可持续发展实...

1天前

入选国家级“伙伴计划”首批单位,闪回科技助推废旧手机循环利用规范化

创新创业闪回科技

2025年7月18日,中国循环经济协会与中国资源循环集团电子电器有限责任公司在北京联合举办了手机规范...

1天前

文创年轻态,非遗成潮流,2025成都礼品展燃爆蓉城

大消费励展华博成都礼品家居展

6月19日,第17届中国(成都)礼品及家居用品展览会暨文创旅游商品展(以下简称“励展华博成都礼品家居...

2025-06-19

YONEX铂金球当选2025 ATP亚洲三大赛事官方指定用球

大消费YONEX

2025年6月18日,上海——国际专业运动品牌YONEX于上海旗忠网球中心举行“金球制胜,越发精彩”...

2025-06-19

略尽绵薄之力,鼎信汇金持续助力概率统计事业发展

金融科技鼎信汇金

2025年6月8日,由中国数学会概率统计学分会主办、南开大学统计与数据科学学院承办的“第二十六届京津...

2025-06-19

米兰柏羽“8D全能抗衰修复体系”正式发布,开启抗衰新纪元

创新创业米兰柏羽

6月12日,米兰柏羽「8D全能抗衰修复体系」在成都正式发布,米兰柏羽全国皮肤学组13位院长级代表出席...

2025-06-19

日租金不超过10元,支付宝上出现LABUBU租赁服务

支付宝金融科技

泡泡玛特旗下人气IP LABUBU凭借其独特的“丑萌”魅力风靡全球,更催生了新兴的租赁市场。

2025-06-19

京东618台式机再创新高,迷你主机成交额同比增长70%

京东大消费

截至6月18日晚24点,2025年京东618圆满收官。

2025-06-19

浩鲸科技亮相MWC上海,打造以“超级大脑”为核心的全栈AI数智化架构

创新创业浩鲸科技

2025MWC上海,浩鲸科技基于鲸智大模型结合一线项目实践,升级打造以“超级大脑”为核心的企业级全栈...

2025-06-19

从情绪消费到“温暖抱击”:名创优品IP精准触达年轻痛点

大消费名创优品

5月18日至28日,名创优品“吉福特家族”空降广州塔西广场,以毛绒温暖打造沉浸式治愈实验室。

2025-06-19

电动牙刷、电吹风、炊具、雨具秒送成交额翻5倍,京东打造即时零售品牌合作新范式

京东大消费

这个京东618,京东在秒送业务上实现多品类高速增长,为更多用户带去了最好的品质服务。5月30日至6月...

2025-06-19

品牌老化亟待重构,五谷磨房年轻化渗透能力不足

上市公司五谷磨房

在“悦己消费”日益成为主流背景下,品牌年轻化能力逐渐成为食品行业增长韧性的关键变量。

2025-06-19

投资家网(www.investorscn.com)是国内领先的资本与产业创新综合服务平台。为活跃于中国市场的VC/PE、上市公司、创业企业、地方政府等提供专业的第三方信息服务,包括行业媒体、智库服务、会议服务及生态服务。长按右侧二维码添加"投资哥"可与小编深入交流,并可加入微信群参与官方活动,赶快行动吧。

分化浪潮中的坚守与突破 | 第19届中国投资年会,即将启幕

分化浪潮中的坚守与突破 | 第19届中国投资年会,即将启幕

在时代的浩渺长河中,“分化”宛如一条隐匿的脉络,贯穿于万物的生长、发展与变迁。从生命的进化到文明的演...

第二届中匈可再生能源、新材料商业投资峰会将盛大启幕

第二届中匈可再生能源、新材料商业投资峰会将盛大启幕

第二届中匈可再生能源、新材料商业投资峰会于2025年4月9日在匈牙利布达佩斯盛大启幕。

雕刻耐心|第18届中国投资年会·有限合伙人峰会在沪召开

雕刻耐心|第18届中国投资年会·有限合伙人峰会在沪召开

“中国投资年会”作为私募股权行业的年度盛会,已成功举办了18届,吸引了全国VC/PE领域从业者的广泛...