文|唐辰
WPS派来的猴子,让复杂文档解析有救了!
人工智能进入大模型时代后,哪一个方向是最炙手可热、竞争最为激烈的赛道?答案可能不唯一,但利用多模态大模型进行文档智能解析绝对算一个。
自2025年6月以来,仅仅半年时间,各大科技公司、初创企业或研究机构纷纷下场,发布了一系列突破性模型,掀起了一场“解析革命”。
包括MinerU、PaddleOCR、DeepSeek-OCR、Chandra等在内的十余款新型文档解析模型相继问世,覆盖了OCR、结构化提取、版面分析等多个维度。
图注:2025年6月起,十余款多模态文档解析模型先后发布
这些模型不再局限于传统的字符识别,而是深度融合视觉与语言的多模态能力,实现了对复杂文档,如PDF、扫描件、表格、发票的语义级理解与结构化输出。
其中,金山办公联合华中科技大学在近期发布的MonkeyOCR v1.5,成为这一领域的最新技术进展。
这是一个全新的统一视觉语言文档解析框架。从其英文名字看,它称得上是金山办公为解决复杂文档智能解析难题派出的“猴子救兵”。
在全球权威文档解析评测榜单OmniDocBench v1.5中,它拿下93.01分的成绩,获得综合性能全球第一,成为多模态文档解析领域的新标杆。
多模态时代的“复杂文档智能感知系统”
OCR(Optical Character Recognition,光学字符识别)技术是最早让机器理解文字、看懂文字的技术之一。它的核心任务是将图像中的文字,转化为可编辑、可检索的文本。
比如在扫描文档、票据识别录入、街景招牌识别,以及Google翻译的实时摄像头翻译功能为代表的翻译与语言辅助系统等场景的应用。
OCR技术极大简便了机器识别文字、处理文档的工作,大家只需要拍个照片,或者直接扫描文档,就能把文字、表格、网页等信息提取出来。这也推动了信息数字化的浪潮,成为“无纸化办公”和“自动化文档处理”的基石。
从OCR技术的发展历程看,可以拆分为OCR1.0和OCR2.0阶段。
OCR 1.0 主要基于CNN(卷积神经网络)与LSTM(长短期记忆网络)结合的深度学习模型,例如CRNN、CTC等经典架构。其系统通常由文字检测和文字识别独立模块构成,前者定位图像中的文本区域,后者将文本区域转换为具体文本内容。
这一阶段的OCR技术解决了“机器识字”的基本问题。但它有一个根本性的局限:能识别字符写的是什么,无法理解图像中的语义关系。比如,它分不清楚一段文字是标题、表格数据,还是公式的一部分。
随着办公场景日益复杂,传统OCR仅能检测和识别文字已无法满足需求。现代文档处理需要模型能够理解文档的布局结构,准确表达各元素间的逻辑关系,并能高精度提取文本、公式及表格等结构化信息。
为此,新一代OCR技术应运而生。以MinerU2.5、PaddleOCR-VL、Dots.OCR为代表的多模态模型和解析方案,实现了从“文本识别”到“文档理解”的跨越。这些技术不再仅仅返回文本,而是能够输出Markdown、JSON、HTML等结构化格式,让我们从“看文字”升级为“读文档”。
其中,2023年大模型爆发是一个新的转折点,彻底改变了深度学习的格局。以GPT-4V、Gemini、Qwen-VL、InternVL 为代表的视觉语言模型(Vision-Language Model,VLM),让人工智能真正具备了“同时理解文字与图像”的能力。
这意味着,OCR2.0模型既能“看图识字”,又能“看图明意”。它能读懂论文PDF、解析图表,甚至能够理解图表。
如果说LLM (大语言模型)是“大脑”,那么OCR就是“视觉皮层”,或者说是智能感知系统。它决定了 AI 能“看到”什么,进而“理解”什么。
OCR阶段,模型或者产品的识别与理解能力不足,也会动摇多模态RAG(检索增强生成)系统的“知识理解”的根基。
可以理解为,OCR是办公环境中数据孤岛之间的链接器,只有高效、准确的打通数据转化壁垒,才能真正把数据变成AI能够理解的企业知识,进而为多模态RAG(检索增强生成)技术提供高质量的“数据燃料”。
图注:MonkeyOCR v1.5突破多模态文档解析性能上限(点击看大图)
换句话说,在OCR 1.0时代,模型主要实现的是“文字扫描”:它能看到PDF中的文字,但仅限于识别“这些字是什么”。而进入OCR 2.0阶段,模型已能实现语义级解析、结构级还原、视觉语义融合与深层内容理解。
其角色也发生了根本性跃迁:从单纯的“输入预处理工具”,升级为“知识理解的起点”,成为一个真正的“文档理解器”。
需要补充的是,当前主流的视觉语言模型(VLM),如Qwen-VL、InternVL、Gemma等,虽然参数量大、通用性强,但在结构化多模态信息提取、高精度大尺寸文档解析、轻量化部署等专业场景中,往往难以直接胜任。
而经过文档理解任务专门优化的OCR 2.0模型(如DeepSeek-OCR、PaddleOCR-VL),在文档图像实体检测、版面分析、信息结构化输出及PDF-MarkDown转换等核心任务上表现更为优异,实现了效率与精度的更优平衡。
例如,新版PaddleOCR 已明确将“通用文字识别”(OCR 1.0)与“通用文档解析”(OCR 2.0)划分为两个独立模块。
MonkeyOCR v1.5,正是这一演进路径上的新代表作。它在全能多模态文档解析基准OmniDocBench v1.5,OCRFlux-bench上,全面超越MinerU 2.5、PPOCR-VL、DeepSeek-OCR等此前最优方法,尤其在复杂表格场景中,相较于此前表现最好的MinerU2.5,效果提升近2.5%
可以说,MonkeyOCR v1.5是多模态时代的“复杂文档智能感知系统”。它不是传统 OCR 的升级版,而是迈向“文档理解”的关键一步。
甚至可以说,MonkeyOCR v1.5开启了OCR2.0+时代,将OCR推进到多模态智能系统的核心感知入口的高度,成为连接物理文档与数字智能的关键桥梁,完成从工具到智能信息平台乃至智能解析大脑的蜕变。
“猴子的救兵”有哪些本领
相比传统OCR技术只能识别文字,无法理解上下文关系,无法把一份复杂的学术PDF转化为层次清晰的结构化信息。MonkeyOCR能准确理解复杂布局文档中各元素的逻辑位置和符合人类阅读偏好的阅读顺序。
同时可以精准识别文本、公式、表格等关键元素的信息,甚至能无损还原内嵌图片的表格,以及跨越多页或者多栏的表格。
在实际应用中,高校科研人员借助其批量解析论文,将20篇文献的数据整理时间从2天压缩至5分钟;商业场景里,将一份跨越多页、含有产品插图的商品目录表格,无损地还原为一个完整的结构化数据等;
而自动化业务流程里,企业内部文档处理,如合同、报表、发票等,实现数据自动提取和结构化,提高效率,减少人工干预。
MonkeyOCR v1.5具备这样的智能解析能力,源于其核心设计理念:将全局的结构理解与细粒度的内容识别高效解耦,并在最关键、最复杂的环节引入创新性的智能算法。
为此,它创新地将解析流程简化为两个清晰、轻量的阶段:
第一阶段:给AI 戴上“全局扫描镜”。MonkeyOCR v1.5模型先预测文档布局和阅读顺序,像文本、表格、公式位置等,确保AI 不会像盲人摸象般碎片化阅读,而是从全局掌握信息脉络,也从源头上减少错误。
第二阶段:局部“精加工”。根据一阶段检测结果并行地裁剪,由同一个VLM识别对应区域块内容,再根据一阶段的阅读顺序重新组合,最终还原出完整结构。
其运作逻辑是,系统将检测到的区域块(patch)剪裁出来,针对文本、公式、表格进行并行识别,这种“先定位、再细看”的策略兼顾了效率与精度,既看得准,也认得对。
MonkeyOCR v1.5针对复杂文档解析还有一大杀手锏:图像解耦技术。面对表格中嵌入图片的干扰,模型会像戴上一副“偏光镜”,先遮住干扰图像并用占位符替代,让 AI 专注于解析纯文本表格骨架,最后再将图片精准贴回 。
这种创新的两阶段架构以及针对嵌入图像、跨页表格的专用模块,完美解决了复杂文档中的噪声干扰,避免表格还原时误将图片内容作为单元格内容识别,同时内嵌图像模型和表格识别模型可分离,实现任务上的解耦。
这样来看,MonkeyOCR v1.5 不是“又一个OCR”,它就像是给模型戴上了一副“偏光镜”,自动滤掉干扰表格结构的图片噪声,只看骨架,从而能够成为针对高价值复杂文档打造的垂类智能解析引擎。
MonkeyOCR v1.5的范式意义
如果说图片生成是AI 的“创作之笔”,那么对复杂文档的解析则是 AI 的“深度阅读之眼”。这正是WPS「原生+智能体」思路的落地。背后是金山办公基于自身场景优势,聚焦打磨更适于应用落地的AI模型的理念。
这是因为,在未来的AI时代,真正能大规模落地、产生实际价值的,未必是参数庞大、算力需求高的通用大模型,那些轻量、快速、垂直、适合本地或移动端部署的专用模型,即垂直AI模型,同样可以在其擅长的领域发挥巨大效能。
正如不少评测以及用户反馈所评价,MonkeyOCR v1.5是复杂文档智能解析领域的一个重要里程碑。它不仅在技术上实现了多项创新,打开OCR2.0+的新局面。
更关键是的是,它提供了一个新的OCR技术思路:通过创新的轻量级、本地化两阶段VLM设计、视觉一致性强化学习以及针对性的模块化决方案,可以在复杂文档智能解析上,实现准确性、效率和实用性的最佳平衡。
在办公这一高频、高价值场景打磨世界级模型,并使其成为AI时代新协同办公范式。
但MonkeyOCR v1.5并不是一个炫技的垂直AI模型。尽管我们身处AI大模型时代,但大量的关键信息仍以PDF、扫描件、纸质档案形式存在,比如科研论文、法律合同、医疗记录、工程图纸、政府公文等等。
如果我们无法高效、精准地将其转化为结构化知识,无法理解复杂表格、图片信息,AI 就如同“睁眼瞎”。OCR技术的发展,除了对文档“识别得更准”,其也在改变人、机器与文档的交互方式。
对金山办公而言,MonkeyOCR v1.5 的意义远不只是一个更强的插件。正如金山办公CEO 章庆元所言,AI 时代的办公软件要成为“能力的提供方”和“数字员工的载体” 。
而有了MonkeyOCR v1.5 这套“智能解析大脑”,用户上传的 PDF、图片即可无缝转化为可编辑、可计算的智能文档 。这不仅是“解析即用”的体验升级,更是金山办公在打造成熟 AI 应用落地“样板间” 。
大家也能看到,一只“聪明的猴子”,正在通过重塑人与文档的交互方式,大闹 AGI 的“天宫” 。
参考资料,
赋范空间,《OCR2.0时代:从字符识别到多模态智能理解的技术革命》
量子位,《金山与华科发布多模态模型MonkeyOCR v1.5》
我是唐辰同学,关注互联网科技及商业故事。原创内容,未经许可,谢绝转载。
「唐辰同学」
钛媒体、36氪、老虎财经热榜
澎湃新闻2024年最澎湃创作者
老虎财经2024年度优秀专栏
河南日报·顶端新闻2024年度影响力作者
界面新闻优质榜单
老虎财经2024年度优秀专栏
腾讯新闻年度优质热问答主
2023搜狐新闻年度优质创作者
人人都是产品经理2023年度优秀作者
2023网易新闻年度内容合伙人
界面、36氪、钛媒体、澎湃、21财经、蓝鲸、老虎财经等平台专栏认证作者



































