WebWorld – 阿里Qwen团队开源的大规模网页世界模型系列
WebWorld是什么
WebWorld 是阿里巴巴 Qwen 团队开源的大规模网页世界模型系列,基于 Qwen3 底座训练,包含 8B、14B、32B 三个版本。模型通过在模拟浏览器环境中预测网页状态转移,为 Web Agent 提供高质量的训练数据与推理环境,避免真实网页训练中的网络延迟、速率限制和安全风险。模型支持 A11y Tree、HTML、XML、Markdown 及自然语言等多格式状态表示,可实现 30+ 步的长时程一致模拟,具备显式链式思考推理能力。

WebWorld的主要功能
- 网页状态预测:给定当前页面状态(A11y Tree/HTML/XML 等)和 Agent 动作,预测下一时刻的完整页面状态,模拟真实浏览器行为。
- 长时程多轮模拟:支持超过 30 步的连续交互模拟,保持状态一致性,适用于复杂多步骤网页任务。
- 多格式状态表示:原生支持 A11y Tree,同时可处理 HTML、XML、Markdown 和自然语言描述,增强模型泛化能力。
- 推理能力激活:通过两阶段课程训练,先注入大规模网页动态知识,再用少量 CoT 数据激活显式因果推理。
- 跨领域泛化:在代码环境、GUI 桌面和游戏场景中均展现出良好的迁移能力。
- 轨迹数据合成:可作为数据合成器,为下游 Agent 生成大规模高质量训练轨迹,提升真实任务表现。
WebWorld的技术原理
自回归浏览器模拟器建模:WebWorld 将浏览器环境形式化为自回归序列生成任务,基于因果语言模型学习条件概率分布 Pθ(st+1∣I,ht) ,在给定任务指令 I 和交互历史 ht=(s0,a0,…,st,at) 的情况下,预测执行动作 at 后的下一页面状态 st+1 ,通过最大似然估计在完整轨迹数据上进行端到端训练。
三层层次化数据收集管道:为突破封闭环境的数据瓶颈,WebWorld 构建了可扩展的三层收集策略:第一层”随机爬取”在预训练语料对应的网站上执行随机动作,获取 43.3% 的广度数据;第二层”自主探索”部署 LLM Agent 自行生成目标并探索网站,产出 20.4% 的真实长时程轨迹;第三层”任务导向执行”基于种子任务合成多样化变体并由 Agent 执行,获得 16.1% 的高质量任务轨迹,三层合计超过 106 万条真实开放网页交互数据。
A11y Tree 主状态表示与多格式增强:模型用 Playwright 提取的 A11y Tree 作为主要状态表示,因其具备跨网页与 GUI 的通用性、高信息密度和 LLM 友好结构;同时通过事后转换将轨迹扩展为 HTML、XML、Markdown 等多种格式,引入自然语言页面描述,构建五维指令微调数据集,避免模型对单一表示的过拟合并防止灾难性遗忘。
双层数据过滤与质量控制:数据清洗采用规则启发式与 LLM 评分相结合的双层机制:首先通过脚本验证网站可达性并过滤敏感关键词,仅保留 15.7% 的原始 URL;随后由 LLM 从可访问性、内容适宜性、交互性和工程质量四个维度评分,剔除低分站点。对于轨迹层面,进一步剪除无状态变化的无效转移,并丢弃超过 30 轮或 30K token 的超长样本,全程不引入特定模型的归纳偏置。
两阶段课程训练策略
训练遵循”先注入知识、后激活推理”的课程设计:第一阶段在 106 万条轨迹上进行大规模动态建模,使模型掌握广泛的网页状态转移规律;第二阶段仅使用 1000 条合成的 CoT 样本进行微调,要求模型在预测前先输出对页面结构、用户意图和状态变化的显式分析,从而将隐式推理能力外化为可解释的链式思考模式。
多维评估体系 WebWorld-Bench
为全面衡量模拟质量,团队构建了包含九个评估维度的内在基准:事实性评分通过 LLM 逐点判断预测状态是否正确反映动作的功能因果效应;Web Turing 评分则采用对抗式成对比较,检验模拟状态与真实网页的不可区分性,两者结合从客观正确性和主观真实感两个层面量化世界模型能力。
如何使用WebWorld
环境准备:克隆仓库后执行 pip install -r requirements.txt 并解压数据包。
模型加载:通过 HuggingFace 加载模型(如 Qwen/WebWorld-8B),使用 AutoModelForCausalLM 配合 trust_remote_code=True 初始化。
单步预测:构造包含系统提示(声明为网页世界模型)和用户消息(初始页面状态 + 动作)的对话,调用 model.generate 预测下一页面状态。
多轮模拟:首轮提供初始状态和第一个动作;后续每轮使用固定续写提示 CONTINUE_PROMPT,将上一轮预测状态作为历史,传入新动作继续生成,可循环至 30+ 轮。
Agent 训练:用 WebWorld 合成轨迹数据,通过 Abstract-and-Instantiate 策略生成多样化任务轨迹,对基础模型进行微调以提升下游 Agent benchmark 表现。
基准评测:用 WebWorld-Bench 进行内在评估,或通过 MiniWob++、WebArena 等外在 benchmark 验证 Agent 训练效果。
WebWorld的核心优势
- 规模领先:基于 100 万+ 真实开放网页轨迹训练,数据量达此前工作的 100 倍,覆盖电商、社交、新闻等多元领域。
- 开源开放:模型权重与训练数据(WebWorldData)均以 Apache 2.0 协议开源,提供完整可复现的技术路线。
- 评测体系完善:自研 WebWorld-Bench 内在基准,从事实性(Factuality)和图灵测试(Web Turing)双维度、九个细分维度全面评估模拟质量。
- 训练效率突出:需 1000 条 CoT 样本即可激活强推理能力,证明大规模动态预训练对推理激活的高效性。
- Agent 训练增益显著:Qwen3-8B 经 WebWorld 合成数据微调后,在 WebArena 上提升 10.9%,14B 版本接近 GPT-4o 水平。
WebWorld的项目地址
GitHub仓库:https://github.com/QwenLM/WebWorld
HuggingFace模型库:https://huggingface.co/datasets/Qwen/WebWorldData
arXiv技术论文:https://arxiv.org/pdf/2602.14721
WebWorld的同类竞品对比
| 对比维度 | WebWorld | WebEvolver | UI-Simulator |
|---|---|---|---|
| 开发团队 | 阿里巴巴 Qwen Team | Fang et al. | Wang et al. |
| 技术路线 | 大规模开放网页预训练 + 两阶段课程微调 | 协同进化(世界模型与 Agent 交替微调) | 检索增强模拟(RAG + 提示专有 LLM) |
| 环境范围 | 真实开放网页(百万级域名) | 封闭 benchmark 环境 | 封闭/受控环境 |
| 数据规模 | 106 万+ 真实轨迹 | 依赖 Agent 回传数据,规模受限 | 无自有训练数据,实时调用 API 生成 |
| 模型形态 | 开源专用世界模型(8B/14B/32B) | 训练专用世界模型 | 提示通用 LLM 作为世界模型 |
| 长时程模拟 | 支持 30+ 步一致模拟 | 有限 | 有限 |
| 显式推理 | CoT 激活,可解释状态转移 | 无显式推理 | 依赖基础模型的隐式推理 |
| 开源情况 | Apache 2.0(模型+数据) | 未开源 | 非开源(依赖专有 API) |
| 核心差异 | 以开放网页为根基,数据驱动规模化 | 以协同进化闭环优化,环境受限 | 以检索增强定向合成,成本受 API 限制 |
WebWorld的应用场景
- Web Agent 训练与评估:为自动化网页操作 Agent 提供低成本、高吞吐的模拟训练环境,替代昂贵的真实网页交互。
- 数据增强与合成:为缺乏标注数据的网页任务生成大规模合成轨迹,用于监督微调或强化学习。
- 推理时规划与搜索:在 Agent 执行过程中作为”世界模型”进行动作前瞻模拟,辅助选择最优动作序列。
- 跨领域世界模型研究:其技术范式可迁移至 GUI 自动化、代码环境模拟、游戏状态预测等更广泛的数字世界建模任务。
- 浏览器自动化测试:模拟用户交互路径,用于网页功能测试、兼容性验证和用户体验预演。
-
Doubao-Seed-2.0-lite – 字节推出的首款全模态理解模型
Doubao-Seed-2.0-lite是什么Doubao-Seed-2.0-lite 是字节跳动豆包团队推出的首款全模态理解模型。模型支持视频、图像、音频、文本的原生统一理解,同步升级了 Agent
-
文心 5.1 – 百度推出的旗舰大语言模型
文心 5.1是什么文心5.1(ERNIE 5.1)是百度推出的旗舰大语言模型,基于文心5.0知识蒸馏与Once-for-All弹性训练框架,将预训练成本降至业界同规模模型的6%。模型在Agent任务、
-
Ring-2.6-1T – 蚂蚁百灵推出的万亿深度推理模型
Ring-2.6-1T是什么Ring-2.6-1T是蚂蚁百灵推出的万亿参数深度推理模型,属于Ring系列,专注数学竞赛、代码生成等复杂认知任务的慢思考能力。模型采用MoE混合专家架构,在高参数规模下保
关注公众号:拾黑(shiheibook)了解更多
友情链接:
关注数据与安全,洞悉企业级服务市场:https://www.ijiandao.com/
安全、绿色软件下载就上极速下载站:https://www.yaorank.com/







徐绾绾
关注网络尖刀微信公众号