横扫 31 个主流基准、拿抓 10 类中枢任务天元证券_股票配资模式深度指南_实盘交易与多倍杠杆讲解,视觉模子界的"通才"来了!
香港中语大学 MMLab 与好意思团守护团队开源建议OneThinker——一个基于 RL 的长入多模态视觉推理通才模子,障翳图像与视频两种模态下的十类中枢视觉任务。

在 31 项主流视觉任务测试中,OneThinker 均推崇亮眼。它不仅能在多任务检修中达成互相促进,还能在从未见过的任务上作念出合理推理,初步展现了通才模子的泛化能力。

固然以 Vision-R1、Video-R1、VLM-R1 等为代表的责任,仍是在图像问答、视频领略、运筹帷幄检测等任务上获取显耀恶果。
但这类 RL 模子大部分存在一个扫尾:只可处理单一模态或单一任务。模态、任务之间枯竭关联,推理能力被割裂,难以泛化愚弄。
来望望 OneThinker 是奈何作念的。
本质天下中的视觉数据复杂各样,相同同期包含静态图像与动态视频信息。同期,视觉任务类型也高度各样化,举例问答、定位、分割、追踪等。
在这种布景下,传统的"单任务、单模态" RL 念念考模子架构存在以下两个根人性问题:
无法长入建模本质复杂场景
真实愚弄中相同需要同期领略图像与视频本体,并完成多类任务协同,专才模子难以得志。
常识断绝,迁徙受限
模子之间相互零丁,枯竭常识分享机制,扫尾了推理能力在职务之间的泛化与迁徙。
为了搞定这一问题,守护团队建议了一个"通才念念考模子" OneThinker,具备长入领略和推理不同模态、任务的能力。

为了让 OneThinker 确切具备长入推理不同模态和任务的能力,守护团队从两方面脱手:一是构建长入的数据体系,二是优化多任务的检修模范。
多模态长入任务数据构建

构建具备通用视觉推理能力的模子,最初需要搞定数据障翳不及、任务割裂的问题。
为此,守护团队悉心搭建了一套数据集,分手用于模子的 SFT 冷运转与强化学习检修:
OneThinker-600k
障翳图像与视频两种模态,涵盖图像问答、视频问答、时空定位、分割、追踪等十类中枢视觉任务,用于强化学习阶段的主力检修数据。
OneThinker-SFT-340k
基于 Seed1.5-VL 对 OneThinker-600k 生成高质料的念念维链样本并过滤,用于 SFT 阶段冷运转
通过图像与视频任务的聚合检修,OneThinker 能够在空间与技能维度上设置长入的推理能力,从而达成跨模态、多任务的通用领略。
EMA-GRPO:培植多任务 RL 检修褂讪性

传统强化学习模范在多任务、多模态场景中存在显耀检修抗争衡问题。
不同任务之间的奖励结构互异较大(如检测任务的奖励稠密,而问答类任务相同寥落),容易导致样本间或任务间检修抗争衡的问题。
为此,OneThinker 引入了全新的EMA-GRPO(Exponential Moving Average Group Relative Policy Optimization) 强化检修算法,通过对各任务奖励圭臬差进行滑动平均归一,搞定了两个层面的抗争衡问题:
任务内样本权重不均:缓解模子对低方差样本的过度依赖;
任务间梯度孝敬失衡:防御寥落任务在反向传播中占据主导,收敛其他任务学习。
实验扫尾标明,EMA-GRPO 能显耀培植强化学习阶段的检修褂讪性与管理速率,为大边界长入推理模子的多任务检修提供了有用因循。
实验扫尾
为了全面评估 OneThinker 的能力,守护团队在图像与视频两个模态下不同任务的31 个主流 benchmark上进行了系统测试,障翳图像问答、视频领略、空间定位、技能定位、运筹帷幄分割、运筹帷幄追踪等 10 类中枢视觉任务。

OneThinker 在图像问答任务中推崇出色,MMMU 达到 70.6%,MathVerse 达到 64.3%,在视频领略上,VideoMMM 获取了 66.2% 的推崇。

关于技能定位和空间定位任务中,模子在 RefCOCO testA 的空间定位任务中也获取了 93.7% 的高分,Charades 和 ActivityNet 的 R@0.5 分手达到 68.3 和 43.6。

同期,OneThinker 在追踪任务 GOT-10k 上 AO 达到 73.0, 在视频分割任务 ReasonVOS 上 J&F 得分为 54.9,体现了其在感知类任务中的谨慎推崇,更多的任务推崇请参考原文。

守护团队还发现,在某些任务和模态之间,OneThinker 能达成存效的常识迁徙与分享,不同任务之间互相促进。

同期,OneThinker 在未见任务上展现出零样本能力,能径直相宜如点追踪、图像质料评估、GUI 领略和旋转运筹帷幄检测等任务,体现出弘大的任务泛化能力。
不错说,OneThinker 的推出,不仅展示了强化学习在长入多模态、多任务视觉推理上的后劲,也为构建确切的视觉通才模子提供了明晰的旅途。
在大模子不休走向多模态、强推理、通才化的趋势下,OneThinker 的责任大约仅仅一个起始,但它所考据的标的,正在成为通往通用视觉智能(AGI)的关节一环。
更多细节,请参考原文。
论文地址:https://arxiv.org/pdf/2512.03043
代码地址:https://github.com/tulerfeng/OneThinker
一键三连「点赞」「转发」「留神心」
接待在辩驳区留住你的意见!
— 完 —
咱们正在招聘别称眼疾手快、良善 AI 的学术剪辑实习生 � �
感深嗜的小伙伴接待良善 � � 了解细目

� � 点亮星标 � �
科技前沿进展逐日见天元证券_股票配资模式深度指南_实盘交易与多倍杠杆讲解
天元证券_股票配资模式深度指南_实盘交易与多倍杠杆讲解提示:本文来自互联网,不代表本网站观点。