微信扫码
与创始人交个朋友
我要投稿
GOT-OCR2.0 是一个基于 QWen2 0.5B 模型的开源项目,项目核心是开发了一个统一的端到端模型,旨在推动 OCR 技术进入2.0时代。
这个只有 580M 参数的 OCR 模型,拿到了 BLEU 0.972 分数,而且模型大小只有 1G 多,在一般配置的本地机器上运行也不是问题。
从测试效果来看性能也很不错,支持识别普通文档、场景文档、格式化文档等多种多样的文本内容。
普通文本的训练数据中主要使用中文 CASIA-HWDB2 和英文 IAM 数据集,所以该模型对中英文内容的识别效果会比较好。
获取更多生成式 AI 大模型相关开源项目可以关注?公众号 极客开源 ,获取上文提到的 OCR 在线体验地址、开源仓库和模型下载地址,在后台回复 OCR2.0 关键词。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-10-16
实时语音交互的游戏队友——网易伏羲 AI Agent 创新应用
2024-10-16
OpenAI Swarm:探索多智能体(Agent)系统的新框架
2024-10-16
NotebookLM爆火背后:AI原生产品的核心洞察与创新
2024-10-16
ElevenLabs打造AI版费尔南多·阿隆索,开启虚拟人互动新纪元
2024-10-15
Agent S-比肩普通人一样的"电脑Agent"如约而来,引领“电脑交互”新纪元。
2024-10-14
可以在浏览器中本地运行Whisper了!
2024-10-11
Phi-3-Vision-128K大模型,AI助力OCR,文档处理更上一层楼
2024-10-11
PyMuPDF4LLM:多模态PDF 解析神器!
2024-06-17
2024-07-11
2024-06-17
2024-08-06
2024-04-21
2024-08-30
2024-06-26
2024-07-11
2024-09-12
2024-07-15
2024-09-26
2024-09-26
2024-09-01
2024-07-31
2024-07-25
2024-07-19
2024-07-15
2024-07-15