返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

基于Qwen2多模态大模型构建的开源OCR项目

[复制链接]
链载Ai 显示全部楼层 发表于 11 小时前 |阅读模式 打印 上一主题 下一主题

GOT-OCR2.0 是一个基于 QWen2 0.5B 模型的开源项目,项目核心是开发了一个统一的端到端模型,旨在推动 OCR 技术进入2.0时代。

获取 GOT-OCR2.0在线体验地址、模型下载地址,关注?公众号 ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: var(--articleFontsize);letter-spacing: 0.034em;">极客开源 在后台回复OCR2.0关键词。

这个只有 580M 参数的 OCR 模型,拿到了 BLEU 0.972 分数,而且模型大小只有 1G 多,在一般配置的本地机器上运行也不是问题。

从测试效果来看性能也很不错,支持识别普通文档、场景文档、格式化文档等多种多样的文本内容。

普通文本的训练数据中主要使用中文CASIA-HWDB2 和英文IAM 数据集,所以该模型对中英文内容的识别效果会比较好。

格式化文档的训练数包括了:数学公式、化学分子式、表格数据、PDF 整页数据,以及更有难度的乐谱、几何形状、图表,得益于多模型大模型的加持,GOT 模型可以处理更多种类的任务。
模型架构层面,GOT 由三个模块组成,图像编码器、线性层和输出解码器。线性层充当连接器,在视觉编码器和语言解码器之间映射通道维度。

利用三个主要步骤来优化整个 GOT 模型。
首先,执行纯文本识别任务,对视觉编码器进行预训练。为了提高训练效率并节省 GPU 资源,GOT 选择了一个微型解码器将梯度传递给编码器。在这个阶段,把包含场景文本的图像和包含文档级字符的手动图像馈送到模型中,以允许编码器收集两种最常用的字符的编码能力。

在下一阶段,通过将经过训练的视觉编码器连接到一个新的更大的解码器来形成 GOT 的架构。

在最后阶段将会进一步提高 GOT 的泛化和适用性。具体来说,为 GOT 生成和添加细粒度和多裁剪/页面合成数据,以支持区域提示 OCR、大图像 OCR 和批量 PDF OCR 功能。

OCR-2.0 模型在结构上比 OCR-1.0 的系统要简单,比多模型大语言模型更侧重于纯 OCR 任务,并且具有卓越的性能;并且 OCR-2.0 将各种 Pan-OCR 任务集成到一个模型中,在模型设计、数据工程和应用场景方面具有有价值的研究方向。

获取更多生成式 AI 大模型相关开源项目可以关注?公众号 极客开源,获取上文提到的 OCR 在线体验地址、开源仓库和模型下载地址,在后台回复OCR2.0 关键词。

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ