GLM-OCR – 智谱开源的轻量级多模态OCR模型

互联网 来源:AI工具集 2026-02-03 10:52:29

GLM-OCR是什么

GLM-OCR是智谱AI开源的轻量级多模态OCR模型,仅0.9B参数在OmniDocBench V1.5榜单以94.6分登顶SOTA。模型基于GLM-V架构,集成自研CogViT视觉编码器与轻量跨模态连接层,引入多Token预测损失和强化学习训练,在手写体、复杂表格、代码文档、印章、多语言混排等高难场景表现卓越。模型支持HTML表格、JSON结构化输出,推理速度达1.86页/秒,兼容vLLM/SGLang/Ollama部署,适用文档解析、票据提取、RAG等商业场景。

GLM-OCR的主要功能

  • 通用文本识别:支持照片、截图、扫描件、PDF,识别印刷体、手写体、印章、代码等特殊文字。

  • 复杂表格解析: 精准理解合并单元格、多层表头等结构,直接输出HTML代码,无需二次制表。

  • 信息结构化提取:从卡证、票据、表格中智能提取关键字段,输出标准JSON格式,对接业务系统。

  • 公式与代码识别:支持准确识别数学公式、程序代码等专业技术内容。

  • 多语言与混排支持:支持处理竖排文字、多语言混排等复杂版式。

  • 批量文档处理:支持大批量文档识别,输出规整格式,为RAG提供高质量数据基础。

GLM-OCR的技术原理

  • 整体架构:GLM-OCR采用经典的”编码器-解码器”架构设计,整体继承自GLM-V系列。架构由三大核心模块组成:视觉侧的CogViT视觉编码器(400M参数规模)、负责跨模态信息融合的轻量连接层,和后端的GLM-0.5B语言解码器。

  • 视觉编码:视觉编码器采用智谱自研的CogViT架构,在数十亿级别的图文对数据上引入CLIP对比学习策略进行大规模预训练。使模型具备强大的文字检测与版面语义理解能力,能有效处理复杂文档中的多栏布局、图文混排、旋转文字等挑战。

  • 跨模态融合:为实现视觉与语言信息的高效融合,GLM-OCR设计了轻量高效的连接层结构。融合SwiGLU激活机制,引入4倍下采样策略,能精准筛选并保留关键视觉Token,将高密度的视觉语义信息高效压缩传递至后端语言解码器,支撑高精度的OCR识别输出。

  • 训练优化:GLM-OCR在训练策略上率先将多Token预测损失(MTP)引入OCR模型训练,通过同时预测多个未来Token增强损失信号密度,显著提升模型学习效率。通过持续且稳定的全任务强化学习训练,进一步优化模型在复杂文档场景下的整体识别精度与跨领域泛化能力。

  • 推理流程:系统层面,GLM-OCR采用”版面分析→并行识别”的两阶段技术范式。基于PP-DocLayout-V3进行文档版面分析,精准定位文本、表格、图片等区域;并行执行OCR识别,最终在版式多样、结构复杂的文档场景下实现稳定、高质量且高效率的解析效果。

GLM-OCR的项目地址

  • GitHub仓库:https://github.com/zai-org/GLM-OCR

  • HuggingFace模型库:https://huggingface.co/zai-org/GLM-OCR

  • 在线体验:https://ocr.z.ai/

GLM-OCR的应用场景

  • 教育科研:模型能精准识别手写笔记、数学公式、学术论文、教材扫描件,支持复杂排版和多语言文献处理,助力知识整理与学术研究。

  • 企业办公:模型能自动解析合同、发票、报销单、会议纪要等各类文档,实现纸质文件数字化归档,大幅提升信息录入效率。

  • 金融保险:支持智能提取银行卡、身份证、保单、票据中的关键字段,输出结构化JSON数据,无缝对接核心业务系统,降低人工审核成本。

  • 物流海关:快速识别报关单、运单、装箱单等专业单据,准确提取商品信息、收发货人、金额等数据,加速通关与结算流程。

  • 软件开发:模型能准确识别代码截图、技术文档、API手册,支持多种编程语言,方便开发者整理代码片段与构建技术知识库。

延伸阅读

关注公众号:拾黑(shiheibook)了解更多

友情链接:

关注数据与安全,洞悉企业级服务市场:https://www.ijiandao.com/
安全、绿色软件下载就上极速下载站:https://www.yaorank.com/

公众号 关注网络尖刀微信公众号
随时掌握互联网精彩
内容推荐