我要投稿

0.35秒OCR整页文档，比Qwen2.5 VL高出10%的文档转换多模态模型！

发布日期：2025-03-24 15:55:03 浏览次数： 1644 作者：PaperAgent

SmolDocling是一种多模态的图文到文本模型，专为高效的文档转换而设计，目前冲到huggingface热榜2th。

SmolDocling由Docling团队，IBM Research联合推出，其在A100 GPU上平均每页仅需0.35秒，256M参数比Qwen2.5 VL（7B）更高效！

SmolDocling功能特性：

DocTags高效标记 —— 引入DocTags，这是一种与DoclingDocuments完全兼容的高效且简洁的文档表示方式。

光学字符识别（OCR） —— 从图像中准确提取文本。

布局和定位 —— 保留文档结构和文档元素的边界框。

代码识别 —— 检测并格式化代码块，包括缩进。

公式识别 —— 识别并处理数学表达式。

图表识别 —— 提取并解释图表数据。

表格识别 —— 支持结构化表格提取，包括列标题和行标题。

图形分类 —— 区分图形和图形元素。

标题对应 —— 将标题链接到相关图像和图形。

列表分组 —— 正确组织和结构化列表元素。

全页转换 —— 处理整个页面，实现全面的文档转换，涵盖所有页面元素（代码、公式、表格、图表等）。

带边界框的OCR —— 使用边界框进行OCR区域识别。

通用文档处理 —— 针对科学和非科学文档进行了训练。

无缝集成Docling —— 导入Docling并以多种格式导出。

https://hf-mirror.com/ds4sd/SmolDocling-256M-previewhttps://arxiv.org/pdf/2503.11576SmolDocling: An ultra-compact vision-language model for end-to-end multi-modal document conversion

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-04-16

Seedream 3.0 文生图模型技术报告发布

2025-04-14

DupDub 插件登陆 Dify Marketplace，带来强大的音频 AI 能力

2025-04-14

Google Gemini 2.0 网页抓取真丝滑

2025-04-14

关于 GTP-4o 图片生成的10个赚钱方向

2025-04-14

Gemma3+Mistral-OCR+RAG：实现多模态文档问答系统

2025-04-11

成功率提高7倍！新方法一句话就能让AI秒出分子设计+合成步骤

2025-04-11

多模态视觉理解大模型推理优化

2025-04-09

99%的人不知道Claude的一句话生成SVG图片功能

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

GPT-4 和 GPT-4o的主要区别

2024-09-12

ChatGPT记忆功能全解析：实用场景与操作指南

2024-06-14

面壁小钢炮 MiniCPM-V 2.6 部署指南

2024-08-06

Flowise AI 工作流进阶: 常用组件介绍+连 Notion 做知识库

2024-06-17

Qwen2-VL 全链路模型体验、下载、推理、微调实战！

2024-08-30

智谱开源新一代多模态大模型CogVLM2，性能媲美GPT-4V

2024-05-30

一文了解：最新版本 Llama 3.2

2024-10-07

周鸿祎发布纳米搜索，做世界第一的AI搜索

2024-11-28

深度解析Swarm Agent ：OpenAI 开源的多智能体协作框架

2024-10-16

深入解析Llama 3：开发者如何充分利用这一开源大模型

2024-04-21

大家都在问

AI数字人领域重大突破：告别拼凑式合成，阿里OmniTalker能否开启音视频一体化新时代？

2025-04-08

Midjourney V7全面测评：50组多风格提示词实测，是否还有领先优势?

2025-04-05

如何结合多模态RAG和异步调用实现大模型内容理解？

2025-03-30

Chat GPT文生图不用DALL·E模型了？

2025-03-26

如何构建多模态AI知识库？

2025-03-05

我为什么要卸载DeepSeek ？

2025-03-02

千问又放大招！720亿参数的视觉语言模型什么样？

2025-01-08

为什么生成式AI不擅长同时做两件事？

2024-12-13

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB