热门资讯

Qwen-Image-Bench – 通义千问推出的文生图模型评测基准

互联网来源：AI工具集 2026-05-29 22:35:18

Qwen-Image-Bench是什么

Qwen-Image-Bench 是通义千问团队推出的文生图模型评测数据集，规模为 1k 条测试样本，覆盖中英双语提示，支持多维度评测各类文生图模型的生成效果，采用 Apache-2.0 协议开源。为图像生成模型提供标准化、可复现的评测框架，涵盖文本渲染、图像编辑、通用生成等核心能力维度，帮助开发者和研究者客观对比不同模型的实际表现。

Qwen-Image-Bench的主要功能

中英双语评测：测试样本覆盖中文和英文提示词，可全面评估模型的多语言图像生成能力。
多维度能力评估：支持对文生图模型在文本渲染、图像编辑、通用生成、语义一致性等维度的综合评测。
标准化测试流程：提供统一的评测脚本和数据格式，确保不同模型之间的公平对比。
开源数据集：1k 条精心设计的测试用例，覆盖多种复杂场景和细粒度任务。
自动化评分支持：支持结合多基准指标（如 GenEval、DPG、GEdit 等）进行自动化评估。

如何使用Qwen-Image-Bench

克隆仓库到本地：访问 GitHub 仓库 QwenLM/Qwen-Image-Bench，使用 git clone 将项目代码下载到本地环境。。
安装依赖环境：根据仓库内的 requirements.txt 或说明文档，安装 Python 依赖库（如 PyTorch、Diffusers、Transformers 等图像生成与评测所需工具）。
准备待评测模型：配置需要测试的文生图模型，支持本地加载模型权重（如 Qwen-Image、FLUX、Stable Diffusion 等），或通过 API 方式接入远程模型服务。
加载评测数据集：将 Qwen-Image-Bench 提供的 1k 条中英双语测试样本加载到评测流程中，数据集包含通用生成、文本渲染、图像编辑等多维度提示词。
执行批量图像生成：运行推理脚本，模型根据数据集中的文本提示逐条生成对应图像，建议统一输出分辨率（如 1024×1024）和推理参数以保证评测一致性。
运行自动化评测脚本：调用仓库内置的评测工具，从文本渲染准确率、语义一致性、图像质量、编辑保真度等维度对生成结果进行自动打分。
输出并对比评测结果：生成结构化评测报告，查看模型在各维度上的得分，支持与其他模型进行横向对比分析。
自定义扩展评测（可选）：可根据实际需求补充自定义测试用例，或调整评测指标权重，适配特定业务场景的评估需求。

Qwen-Image-Bench的核心优势

中文场景针对性强：特别强化中文文本渲染和文化元素理解评测，弥补现有基准中文覆盖不足的短板
评测维度全面：涵盖通用图像生成、精确图像编辑、复杂文本渲染等多类任务，不局限于单一能力
规模适中、易于复现：1k 条样本在保证评测代表性的同时，降低了复现门槛和计算成本
生态兼容性好：与 Qwen-Image、Qwen-Image-Edit 等模型原生适配，也可用于评测第三方文生图模型
开源协议友好：Apache-2.0 协议允许商业使用和自由二次开发

Qwen-Image-Bench的项目地址

Github仓库：https://github.com/QwenLM/Qwen-Image-Bench
HuggingFace模型库：https://huggingface.co/datasets/Qwen/Qwen-Image-Bench
arXiv技术论文：https://arxiv.org/pdf/2605.28091

Qwen-Image-Bench的同类竞品对比

对比维度	Qwen-Image-Bench	GenEval	DPG-Bench
推出机构	通义千问团队（阿里巴巴）	Meta FAIR、华盛顿大学、UCLA 等	学术界（Hu et al., 2024）
数据集规模	1,000 条测试样本	553 条模板化提示	1,065 条密集提示
提示特点	中英双语，覆盖多维度任务	短提示，组合式模板生成	长提示，段落级密集场景描述
评测维度	通用生成、文本渲染、图像编辑、语义一致性等	单物体、双物体、计数、颜色、位置、颜色属性绑定	属性、实体、全局场景、关系、其他（计数/文本渲染）
评估方式	自动化脚本多维度打分	端到端目标检测模型验证	VQA 模型（BLIP-2）问答验证
语言支持	中文、英文双语	英文为主	英文为主
中文针对性	强（专门设计中文文本渲染与文化场景）	弱	弱
开源协议	Apache-2.0	开源	开源

Qwen-Image-Bench的应用场景

模型发布前标准化评测：在文生图模型正式上线或开源前，通过 Qwen-Image-Bench 的 1k 条中英双语测试用例，系统验证模型在通用生成、文本渲染、图像编辑等维度的生成质量与稳定性，确保模型达到发布标准。
多模型横向能力对比：横向对比 Qwen-Image、FLUX、GPT Image 1、SeedDream、Stable Diffusion 等不同文生图模型的综合表现，从各维度得分直观呈现各模型的优势与短板，辅助技术选型。
中文生成能力专项测试：重点验证模型在中文海报、PPT、电商图、文化场景等应用中的文本渲染效果，评估模型对中文语义、排版布局、文化元素的理解与视觉表达能力。
图像编辑能力评估：测试模型在风格迁移、局部修改、文字替换、对象增删等图像编辑任务中的表现，衡量编辑前后的语义一致性与视觉保真度。
学术研究基准引用：作为论文中模型评测的权威基准数据集引用，提升研究成果的可信度与可复现性，支持图像生成领域的基础研究发表。