
一个 3B 参数的小模型,在文档解析上打败了一众开源大模型,在图形重建上甚至反超了 Gemini 3 Pro ——而且不只是某一项指标,是在六个图形重建基准上全面超越。
这就是华中科技大学与小红书 hi lab 联合推出的MOCR(Multimodal OCR)。

它提出了一个大胆的新范式:不只识别文字,而是「解析一切」——文字、表格、图表、公式、流程图、化学结构式、UI 组件……通通变成可编辑、可渲染的结构化代码。用论文的话说,这是把文档图形从「二等公民」升级为「一等解析目标」。
更关键的是,这不只是一个技术上的改进,而是一次范式级别的重新定义:文档解析的终点不应该是「把字认出来」,而应该是「把页面上的一切信息都变成机器可理解、可复用的结构化表示」

△ MOCR 整体流程:给定文档图片,将页面上所有元素统一解析为结构化输出,忠实重建原始文档传统 OCR 的致命短板:图表全丢了
我们日常打交道的 PDF、论文、报告里,信息远不止文字。一张精心绘制的柱状图,可能浓缩了整份报告的核心结论;一个化学分子结构式,承载着关键的实验信息;一张流程图,描述了整个系统的运行逻辑。
但传统 OCR 怎么处理?框出来,裁成图片,丢掉。
这意味着文档里大量的结构化语义信息在解析环节就被永久性地丢弃了。论文中用一张对比图把这个问题说得很清楚:

△ 传统 OCR vs MOCR:传统方案把图形当像素丢弃,MOCR 将其解析为 SVG 等结构化代码
左边是传统路线:文本走 OCR 管线变成 Markdown,图形直接裁成像素图——要么丢弃,要么只能做图像描述(caption)和视觉问答(VQA)这类粗粒度应用。右边是 MOCR 的路线:图形被解析为 SVG 代码,和文本一起形成图像 - 代码配对数据,可以直接用于文生图、细粒度感知、可控图像生成、统一的生成与理解等更广泛的下游任务。
MOCR 的核心洞察很简单:文档中最有价值的监督信号,往往是视觉的而非文字的。把这些「丢弃的金矿」捡回来,就是 MOCR 要做的事。这不仅仅是对 OCR 的改进,而是对整个文档数据引擎的重新定义。
怎么做到的?一个 3B 模型的「全能之路」
说起来容易,做起来难。让一个模型同时处理文字识别和图形到代码的重建,面临的挑战远比单纯的 OCR 要复杂得多。论文中总结了三大核心难题:
第一,图形的监督信号极度稀缺。现实文档中很少会同时提供一张图表和对应的程序化表示(比如 SVG 源码)。换句话说,你能找到海量的文本 - 标注对,但图形 - 代码对就少得多。
第二,可渲染的程序表示天然不唯一。同一张图表,可以用完全不同的 SVG 代码来实现——结构不同、参数不同,但渲染出来视觉效果一模一样。这意味着训练目标本身就是多对一的,模型很难收敛。
第三,任务要求极高的视觉定位精度和超长序列生成能力。要把一张复杂的图表忠实地转化为 SVG 代码,模型需要同时做到精确的视觉 grounding(每个图形元素的位置、大小、颜色都不能错)和长达数千 token 的结构化文本生成,这比纯文本 OCR 难得多。
模型架构:从零训练的视觉编码器 + 紧凑解码器
整体架构遵循经典的视觉 - 语言模型范式:高分辨率视觉编码器 + 轻量级多模态连接器 + 自回归语言模型解码器。但每个组件都针对文档场景做了深度优化。
1.2B 参数视觉编码器—
配先查提示:文章来自网络,不代表本站观点。