Thinker – 优必选开源的具身智能视觉语言模型
Thinker是什么
Thinker是优必选开源的具身智能视觉语言大模型,专为机器人场景打造。模型4B参数在9项权威基准测试中斩获全球第一。模型核心能力涵盖任务规划、空间理解、时间推理和视觉定位,能有效解决机器人”想得到但抓不准”的困境。模型基于20亿原始数据精炼出的1000万高质量数据训练,采用自动化标注体系将人工参与率控制在1%以下。模型已支撑Walker S2在工业场景实现99.99%作业准确率,推动具身智能技术普惠发展。

Thinker的主要功能
任务规划:Thinker能理解复杂的人类指令,结合历史状态记忆,预测机器人未来的状态变化,将长程任务分解为可执行的子任务序列。
空间理解:Thinker建立了自我为中心的坐标系统,将摄像头作为原点定义所有空间关系,使机器人能精准感知物体在三维空间中的位置和方位。
时间理解:Thinker能从视频历史中提取关键信息,将过去的事件与当前指令相结合,准确评估当前状态做出合理的时序决策。
视觉定位:Thinker能用边界框和精确点坐标的形式描述物体位置,为机器人的抓取操作和交互提供精准的空间指引。
Thinker的技术原理
数据构建:Thinker构建了从原始数据到高质量训练数据的完整流水线。面对20亿条含噪声、难对齐的原始数据,通过定制化规则进行广度筛选,用大模型进行多维度质量评分,精炼出1000万条高质量数据。同时采用”大模型辅助标注加多模型交叉验证”的自动化标注体系,将人工参与率控制在1%以下,使标注成本降低99%而效率提升超百倍。
模型架构设计:Thinker采用经典的视觉语言模型架构,包含文本分词器、视觉编码器、多层感知机对齐层和语言模型骨干四个核心模块。实现视觉、语言和时间的统一表征,使模型能准确捕捉视觉细节、理解任务指令并进行跨模态推理。
训练策略:Thinker采用两阶段训练方法。第一阶段在通用数据集、空间理解数据集和大规模规划数据集上进行微调,建立基础感知和推理能力,同时引入视频最后一帧作为辅助输入以增强视频理解。第二阶段在工业任务数据集上进行监督微调,使模型适应序列依赖、多样物体布局和反馈修正,最终生成可在真实工业场景中执行的规划方案。
关键创新:Thinker针对机器人视角混淆和视频信息遗漏的痛点,提出在视频理解训练中联合输入关键帧与完整视频的简单有效方法,显著增强模型的时序理解能力。同时通过高质量数据筛选和任务导向型采样,在仅4B参数规模下实现超越10B以上模型的性能表现。
Thinker的项目地址
GitHub仓库:https://github.com/UBTECH-Robot/Thinker
HuggingFace模型库:https://huggingface.co/UBTECH-Robotics/Thinker-4B
arXiv技术论文:https://arxiv.org/pdf/2601.21199
Thinker的应用场景
工业智能制造:Thinker可驱动人形机器人在工厂产线完成箱体搬运、工件分拣等任务,Walker S2已实现99.99%的作业准确率,有效解决传统自动化设备柔性不足的问题。
仓储物流作业:Thinker支持机器人在动态仓库环境中进行货物识别、路径规划和精准抓取,适应SKU多样化和高频变化的物流需求。
商用服务场景:Thinker赋能机器人在商场、展厅等公共场所提供引导、讲解和互动服务,通过视觉语言理解实现自然的人机交互。
复杂操作任务:Thinker使机器人能执行需要长程规划和精细空间感知的操作,如设备巡检、零部件装配和多步骤实验流程。
群体智能协作:Thinker作为认知基座支撑优必选的群脑网络和协作智能体Co-Agent,实现多机器人之间的任务分配、协同决策和自主进化。
-
Vidu Q3 – 生数科技推出的音画同步AI视频模型
Vidu Q3是什么Vidu Q3 是生数科技推出的全球首款 16 秒音画同步 AI 视频模型,专为短剧、漫剧、广告等叙事场景打造。一次提示即可直出 16 秒 1080p 成片,画面、对白、环境音效与
-
Happy – 开源AI编程远程控制工具,实时查看状态
Happy是什么Happy 是开源工具,能让用户通过手机或网页客户端远程控制电脑上运行的 Claude Code 或 Codex。支持实时查看代码进度、语音交互、消息推送,采用端到端加密保障数据安全。
-
GLM-OCR – 智谱开源的轻量级多模态OCR模型
GLM-OCR是什么GLM-OCR是智谱AI开源的轻量级多模态OCR模型,仅0.9B参数在OmniDocBench V1.5榜单以94.6分登顶SOTA。模型基于GLM-V架构,集成自研CogViT视
关注公众号:拾黑(shiheibook)了解更多
友情链接:
关注数据与安全,洞悉企业级服务市场:https://www.ijiandao.com/
安全、绿色软件下载就上极速下载站:https://www.yaorank.com/
关注网络尖刀微信公众号随时掌握互联网精彩
- 外教老师结课时请全班同学吃冰淇淋
- 台积电在日本新开设的晶圆厂开始量产芯片
- 河南景区1元午餐实收多了913元
- vivo X200系列首发!索尼光喻LYT-818传感器降临
- 热辣滚烫票房第一!贾玲再获百花奖最佳导演、最佳女主提名
- 西游之紫霞仙子ios版 v1.3.0最新版本2022下载地址
- 成都美食网 v1.0最新版本2022下载地址
- 噬魂默示录iOS版 v1最新版本2022下载地址
- 魔龙与勇士iPhone版 V1.12.4最新版本2022下载地址
- Google Gmail Notifier 1.0.0.86最新版本2022下载地址
- 迷上斗地主 2.75最新版本2022下载地址
- 古文翻译字典 1.0.0.0最新版本2022下载地址







ejiejie
