DeepEyesV2 – 小红书开源的多模态智能体模型
DeepEyesV2是什么
DeepEyesV2 是小红书团队推出的多模态智能体模型,通过两阶段训练法实现强大的工具调用和多模态推理能力。模型能理解图文信息,支持主动调用代码执行、网络搜索等外部工具,将工具返回的结果融入推理过程,解决复杂的真实世界问题。模型第一阶段通过监督微调让模型建立工具使用的基本认知,第二阶段通过强化学习提升模型的工具调用效率和泛化能力。DeepEyesV2 在新提出的 RealX-Bench 基准测试中表现出色,展现出强大的多技能协调能力。

DeepEyesV2的主要功能
- 多模态理解:模型能同时处理文本和图像信息,理解复杂的图文内容。
- 主动工具调用:在需要时主动调用外部工具,如代码执行环境和网络搜索,获取额外信息或执行复杂任务。
- 动态推理与决策:将工具调用的结果融入推理过程,通过迭代的方式逐步解决问题。
- 任务自适应:根据不同任务类型(如感知、推理等)智能选择合适的工具,提升效率和准确性。
- 复杂任务解决:通过工具的组合和迭代推理,解决需要多种能力协同的复杂任务,如结合感知、搜索和推理的综合任务。
DeepEyesV2的技术原理
- 冷启动阶段(Cold Start):
- 监督微调(Supervised Fine-tuning, SFT):通过大量包含工具使用步骤的样本数据(如感知型、推理型和长思维链数据)对模型进行微调,帮助模型建立对工具使用的基本认知。
- 数据设计:数据覆盖多种任务类型,确保模型在不同场景下都能学习到合适的工具调用策略。
- 强化学习阶段(Reinforcement Learning):
- 策略优化:在冷启动的基础上,通过强化学习进一步优化模型的工具调用策略,提升效率和泛化能力。
- 目标:减少不必要的工具调用,同时在未见过的复杂场景中创造性地组合工具,提升模型的灵活性和适应性。
DeepEyesV2的项目地址
项目官网:https://visual-agent.github.io/
GitHub仓库:https://github.com/Visual-Agent/DeepEyesV2
arXiv技术论文:https://arxiv.org/pdf/2511.05271
DeepEyesV2的应用场景
- 智能问答与信息检索:用户上传图片提问,DeepEyesV2 能结合图像识别和网络搜索提供精准答案。
- 教育与学习辅助:通过图像识别和推理,为学生提供作业辅导和知识探索支持。
- 内容创作与编辑:分析图片内容,提供图像编辑建议和相关文案生成。
- 智能客服与技术支持:用图像识别和网络搜索,为用户提供故障诊断和咨询解答。
- 医疗健康:辅助医生分析医学影像,结合网络搜索提供健康咨询和初步诊断。
-
Doubao-Seed-Code – 字节跳动推出的AI编程模型
Doubao-Seed-Code是什么Doubao-Seed-Code 是字节跳动推出的 AI 编程模型,专为 Agentic 编程任务优化。模型支持 256K 长上下文,可处理复杂代码场景,具备视觉
-
SenseNova-SI – 商汤开源的空间智能大模型
SenseNova-SI是什么SenseNova-SI 是商汤开源的空间智能大模型,专注于提升空间智能。模型通过大规模、高质量的空间数据训练,显著增强模型在空间测量、关系理解、视角转换等核心维度的能力
-
Qoder Rules – 开源的AI辅助开发规范和模板系统
Qoder Rules是什么Qoder Rules 是开源的完整代码规范和模板系统,能帮助开发者使用 Qoder 进行更高效、规范的开发。Qoder Rules 遵循阿里云 AI 架构和最佳实践,涵盖
关注公众号:拾黑(shiheibook)了解更多
友情链接:
关注数据与安全,洞悉企业级服务市场:https://www.ijiandao.com/
安全、绿色软件下载就上极速下载站:https://www.yaorank.com/
关注网络尖刀微信公众号随时掌握互联网精彩

faybee
