为了解决PDF文档转换为机器可处理的格式的这一极具挑战性的难题,IBM的研究人员基于PDF解析器、大模型、OCR等多种技术开发了Docling模型。该模型可将PDF文档保留全部格式的情况下快速转换成JSON、Markdown格式。
Docling模型使用了模块化设计方法,将整个PDF文档处理流程拆解为一系列连续的操作步骤,每个步骤都由专门的模块来执行。这不仅提升了执行效率和准确率,还极大增强了模型的扩展性和灵活性。在Docling架构中,PDF后端扮演着重要角色。主要负责将PDF文档解析为机器可读的格式,包括提取文本内容及其在页面上的几何坐标,以及渲染每个页面的位图图像。
1、提供了多种PDF后端选项
在Docling架构中,PDF后端扮演着重要角色。主要负责将PDF文档解析为机器可读的格式,包括提取文本内容及其在页面上的几何坐标,以及渲染每个页面的位图图像。为了应对PDF文档格式的多样性和复杂性,Docling提供了多种PDF后端选项。其中,基于qpdf库开发的自定义PDF解析器,是默认的PDF后端。为了满足不同场景的需求,还提供了基于pypdfium的PDF后端作为备选方案。
2、布局分析模型
在PDF后端完成初步解析后,布局分析模型基于RT-DETR架构,通过在DocLayNet数据集上进行再训练,能够准确地预测页面图像上各种元素的边界框和类别。使Docling能够理解文档的详细布局,包括阅读顺序、图形位置以及表格结构的恢复。
3、表格结构识别模型
表格结构识别模型TableFormer则主要用于识别表格结构,能够预测给定表格的逻辑行和列结构,并确定哪些表格单元属于列标题、行标题或表格主体。帮助Docling在处理表格时,能够应对各种复杂情况,如无边框线、空单元格、跨行或跨列的单元格等。
4、提供了可选的OCR支持
Docling提供的可选OCR支持可以进一步提升Docling的处理能力,通过集成EasyOCR这一流行的第三方OCR库,Docling能够识别和转写图像中的文字,从而扩展在文档处理方面的应用范围。
研究人员使用arXiv的3篇论文和两本IBM书总共225页搭建了一个测试数据集,以此来评估Docling的转换效率。在测试过程中,使用了两种可用的PDF后端,并分别设置了不同的线程预算,一次将线程预算固定为4,另一次固定为16,在苹果M3 Max笔记本和英特尔Xeon E5–2690平台上执行。
结果显示,Docling可以完美、快速将PDF文档转换为JSON、Markdown格式,并且能够理解页面布局、阅读顺序,定位图表并恢复表格结构,还能提取文档的元数据,例如,标题、作者、参考文献和语言等。