热门资讯

DeepEyesV2 – 小红书开源的多模态智能体模型

互联网来源：AI工具集 2025-11-15 01:58:50

DeepEyesV2是什么

DeepEyesV2 是小红书团队推出的多模态智能体模型，通过两阶段训练法实现强大的工具调用和多模态推理能力。模型能理解图文信息，支持主动调用代码执行、网络搜索等外部工具，将工具返回的结果融入推理过程，解决复杂的真实世界问题。模型第一阶段通过监督微调让模型建立工具使用的基本认知，第二阶段通过强化学习提升模型的工具调用效率和泛化能力。DeepEyesV2 在新提出的 RealX-Bench 基准测试中表现出色，展现出强大的多技能协调能力。

DeepEyesV2的主要功能

多模态理解：模型能同时处理文本和图像信息，理解复杂的图文内容。
主动工具调用：在需要时主动调用外部工具，如代码执行环境和网络搜索，获取额外信息或执行复杂任务。
动态推理与决策：将工具调用的结果融入推理过程，通过迭代的方式逐步解决问题。
任务自适应：根据不同任务类型（如感知、推理等）智能选择合适的工具，提升效率和准确性。
复杂任务解决：通过工具的组合和迭代推理，解决需要多种能力协同的复杂任务，如结合感知、搜索和推理的综合任务。

DeepEyesV2的技术原理

冷启动阶段（Cold Start）：

监督微调（Supervised Fine-tuning, SFT）：通过大量包含工具使用步骤的样本数据（如感知型、推理型和长思维链数据）对模型进行微调，帮助模型建立对工具使用的基本认知。
数据设计：数据覆盖多种任务类型，确保模型在不同场景下都能学习到合适的工具调用策略。

强化学习阶段（Reinforcement Learning）：

策略优化：在冷启动的基础上，通过强化学习进一步优化模型的工具调用策略，提升效率和泛化能力。
目标：减少不必要的工具调用，同时在未见过的复杂场景中创造性地组合工具，提升模型的灵活性和适应性。

DeepEyesV2的项目地址

项目官网：https://visual-agent.github.io/
GitHub仓库：https://github.com/Visual-Agent/DeepEyesV2
arXiv技术论文：https://arxiv.org/pdf/2511.05271

DeepEyesV2的应用场景

智能问答与信息检索：用户上传图片提问，DeepEyesV2 能结合图像识别和网络搜索提供精准答案。
教育与学习辅助：通过图像识别和推理，为学生提供作业辅导和知识探索支持。
内容创作与编辑：分析图片内容，提供图像编辑建议和相关文案生成。
智能客服与技术支持：用图像识别和网络搜索，为用户提供故障诊断和咨询解答。
医疗健康：辅助医生分析医学影像，结合网络搜索提供健康咨询和初步诊断。

延伸阅读

Qwen-Image-Layered – 阿里推出的AI图像编辑模型

Qwen-Image-Layered是什么Qwen-Image-Layered是阿里团队推出的AI图像编辑模型，能将普通图片自动拆分为独立的RGB透明图层，实现类似Photoshop的分层编辑功能。通
NitroGen – 英伟达联合斯坦福大学等推出的通用游戏AI模型

NitroGen是什么NitroGen 是英伟达联合斯坦福大学、加州理工学院等机构开发的开源通用游戏 AI 模型。基于4万小时、涵盖1000多款游戏的视频数据进行训练，采用大规模行为克隆方法。模型通过
Doubao-Seed-Code – 字节跳动推出的AI编程模型

Doubao-Seed-Code是什么Doubao-Seed-Code 是字节跳动推出的 AI 编程模型，专为 Agentic 编程任务优化。模型支持 256K 长上下文，可处理复杂代码场景，具备视觉

关注公众号：拾黑（shiheibook）了解更多

友情链接：

关注数据与安全，洞悉企业级服务市场：https://www.ijiandao.com/
安全、绿色软件下载就上极速下载站：https://www.yaorank.com/

*文章为作者独立观点，不代表文娱排行榜立场

本文由 faybee发表，转载此文章须经作者同意，并请附上出处( 文娱排行榜 )及本页链接。

原文链接 https ://www.yaorank.com/news/net/35392.html

AI工具集 DeepEyesV2 小红书 RealX-Bench