AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


一个端到端的 OCR 模型,炸裂开源!
发布日期:2024-09-29 18:57:50 浏览次数: 1803 来源:逛逛GitHub


GOT-OCR 2.0 是一款革命性的端到端通用 OCR 模型,它能够识别和提取文本,还能处理数学公式、分子式、图表、乐谱、几何图形等多种内容,极大地拓宽了 OCR 技术的应用范围。
模型大小仅 1.43GB,下面列出来在各个场景的效果,感兴趣的往下看。

? 项目特点

① 多语言、多模态识别:GOT-OCR 2.0 支持多种语言和模态的文本识别,无论是印刷体还是手写体,都能准确识别。

② 多样化输入输出:支持照片、文档、切片等多种输入格式,输出格式包括纯文本、Markdown、TikZ、SMILES、Kern 等,满足不同场景的需求。

③ 长文本处理能力: 解码器支持 8K 最大长度的 token,能够处理长文本场景,适用于学术论文、法律文件等长文本资料。

④ 高级功能: 包括交互式 OCR 功能、动态分辨率策略、多页 OCR 技术支持,提供更加灵活和高效的 OCR 解决方案。

如下是 GOT 和其他 OCR 模型的对比评分,取得了非常不错的成绩。

OCR 识别效果

公式:

大段文字:
提取文字:
提取某一坐标的文字:
论文:
特殊字符 OCR:
其他语言:
开源地址:https://github.com/Ucas-HaoranWei/GOT-OCR2.0
论文地址:https://arxiv.org/pdf/2409.01704

历史盘点

逛逛 GitHub 每天推荐一个好玩有趣的开源项目。历史推荐的开源项目已经收录到 GitHub 项目,欢迎 Star:
地址:https://github.com/Wechat-ggGitHub/Awesome-GitHub-Repo


53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询