支持私有云部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


0.35秒OCR整页文档,比Qwen2.5 VL高出10%的文档转换多模态模型!

发布日期:2025-03-24 15:55:03 浏览次数: 1559 来源:PaperAgent
推荐语

高效文档转换的新突破,SmolDocling模型实现极速处理,性能超越Qwen2.5 VL。

核心内容:
1. SmolDocling模型与IBM Research联合推出,高效文档转换能力
2. 功能特性全面,包括OCR、布局识别、代码和公式识别等
3. 推荐阅读资源,深入探索AI Agents与多模态系统的发展

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家
SmolDocling是一种多模态的图文到文本模型,专为高效的文档转换而设计,目前冲到huggingface热榜2th。
SmolDocling由Docling团队,IBM Research联合推出,其在A100 GPU上平均每页仅需0.35秒256M参数Qwen2.5 VL(7B)更高效!
SmolDocling功能特性:
DocTags高效标记 —— 引入DocTags,这是一种与DoclingDocuments完全兼容的高效且简洁的文档表示方式。
Image description
光学字符识别(OCR) —— 从图像中准确提取文本。
布局和定位 —— 保留文档结构和文档元素的边界框。

代码识别 —— 检测并格式化代码块,包括缩进。

公式识别 —— 识别并处理数学表达式。

图表识别 —— 提取并解释图表数据。
表格识别 —— 支持结构化表格提取,包括列标题和行标题。
图形分类 —— 区分图形和图形元素。
标题对应 —— 将标题链接到相关图像和图形。
列表分组 —— 正确组织和结构化列表元素。
全页转换 —— 处理整个页面,实现全面的文档转换,涵盖所有页面元素(代码、公式、表格、图表等)。
带边界框的OCR —— 使用边界框进行OCR区域识别。
通用文档处理 —— 针对科学和非科学文档进行了训练。
无缝集成Docling —— 导入Docling并以多种格式导出。
https://hf-mirror.com/ds4sd/SmolDocling-256M-previewhttps://arxiv.org/pdf/2503.11576SmolDocling: An ultra-compact vision-language model for end-to-end multi-modal document conversion


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询