我要投稿

SmolDocling | 高效文档转换VLM

发布日期：2025-03-20 04:59:09 浏览次数： 1666 作者：奇点智源

IBM和Hugging Face的研究人员发布了SmolDocling，这是一种256M的开源视觉语言模型，通过创新的DocTags标记格式、课程学习和优化的架构，实现了高效、精准的全文档OCR，性能超越更大的模型。

论文介绍

将复杂文档转换为结构化数据长期以来一直是计算机科学领域的重大挑战。传统方法，包括 ensemble systems 或非常大的 foundational models，经常遇到重大障碍，如微调困难、泛化问题、hallucinations 以及高昂的计算成本。Ensemble systems 虽然对于特定任务有效，但由于其依赖于为每个子任务手工设计的 pipelines，因此通常难以泛化。另一方面，multimodal foundational models 虽然强大，但经常面临高昂的计算成本和可靠性问题，如 hallucinations。

IBM 和 Hugging Face 的研究人员最近发布了 SmolDocling，一个 256M 的开源 vision-language model (VLM)，专门为 end-to-end multi-modal 文档转换任务而设计，以解决这些挑战。与较大的 foundational models 不同，SmolDocling 提供了一个精简的解决方案，通过单个模型处理整个页面，显著降低了复杂性和计算需求。它仅有 2.56 亿个参数，超紧凑的特性使其非常轻量级且资源高效。研究人员还开发了一种通用的标记格式，称为 DocTags，它以高度紧凑和清晰的形式精确地捕获页面元素、它们的结构和空间上下文。

SmolDocling 利用 Hugging Face 的紧凑型 SmolVLM-256M 作为其架构基础，该架构通过优化的 tokenization 和激进的 visual feature compression 方法显著降低了计算复杂性。它的主要优势在于创新的 DocTags 格式，提供了结构化的标记，明确区分文档布局、文本内容和 visual information，如 equations、tables、code snippets 和 charts。SmolDocling 利用 curriculum learning 进行高效训练，最初包括冻结其 vision encoder，然后使用丰富的数据集逐步对其进行微调，这些数据集增强了不同文档元素之间的 visual-semantic alignment。此外，该模型的效率使其能够以极快的速度处理整个文档页面，在 consumer GPU 上平均每页仅需 0.35 秒，同时消耗的 VRAM 不到 500MB。

性能数据清楚地表明 SmolDocling 处于当前技术的前沿。在涉及各种文档转换任务的综合基准测试中，SmolDocling 的表现明显优于更大的竞争模型。例如，在 full-page document OCR 任务中，SmolDocling 实现了明显更好的准确性指标，例如显著较低的 edit distance (0.48) 和较高的 F1-score (0.80)，相比于 Qwen2.5 VL (7B parameters) 和 Nougat (350M parameters) 等模型。它在 equation transcription 方面也表现出色，实现了 0.95 的 F1-score，与 state-of-the-art models 如 GOT 相当。此外，SmolDocling 在 code snippet recognition 方面树立了新的基准，分别展示了 0.94 和 0.91 的 high precision 和 recall scores。

SmolDocling 与其他 document OCR 解决方案的区别在于其处理文档中各种元素的能力，包括复杂的项目，如 code、charts、equations 和各种布局。它的功能不仅限于典型的科学论文，还可以可靠地处理专利、表格和商业文档。通过 DocTags 提供全面的结构化 metadata，SmolDocling 消除了 HTML 或 Markdown 等格式中固有的歧义，增强了文档转换的下游可用性。其紧凑的尺寸使得在极低的资源需求下进行大规模批处理成为可能，从而促进了大规模部署的成本效益。

总之，SmolDocling 代表了文档转换技术的一项重大突破，证明了 compact models 不仅可以竞争，而且在关键任务中可以大大优于 larger foundational models。研究人员成功地展示了 targeted training、innovative data augmentation 和 novel markup formats（如 DocTags）如何克服与大小和复杂性相关的传统限制。SmolDocling 的发布不仅为 OCR 技术的效率和多功能性设定了新标准，还通过公开可用的数据集和高效、紧凑的模型架构为社区提供了宝贵的资源。这标志着 document understanding 的重大进步，并为企业级应用和更广泛的可访问性开辟了令人兴奋的新可能性。