返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

PaddleOCR 2.9 发布, 正式开源文本图像智能分析利器

[复制链接]
链载Ai 显示全部楼层 发表于 1 小时前 |阅读模式 打印 上一主题 下一主题
OCR 方向的工程师,之前一定听说过 PaddleOCR 这个项目。目前项目累计 Star数量已超过 43k+ ,安装包月下载量超过 40w+ 。

滑动查看更多图片

本次 PaddleOCR 最新发版,带来两大重磅升级,包括:
  • 发布文档场景信息抽取v3(PP-ChatOCRv3-doc)开源版,大幅提升了文本图像版面解析能力,充分发挥文心一言语言理解优势,信息抽取整体效果相比于上一个版本提升 6 %,同时新增 7 个实用的 OCR 基础模型。
  • 支持 OCR 领域低代码全流程开发能力,通过极简的 Python API 一键调用 17个 OCR 相关模型,提供基于统一命令和图形界面两种方式,实现模型简洁高效的使用、组合与定制。支持各种主流硬件如英伟达GPU、昆仑芯、昇腾和寒武纪无缝切换。
PaddleOCR 代码库地址,欢迎大家star:
https://github.com/PaddlePaddle/PaddleOCR
PP-ChatOCRv3-doc 在线体验地址:
https://aistudio.baidu.com/community/app/182491/webUI
下面我们就对上述升级依次进行说明。

文档场景信息抽取v3开源版
PP-ChatOCRv3-doc 的系统流程如下图所示:首先输入预测图片,送入通用 版面分析 系统,经过版面分析后,预测图像中的文字信息和表格结构。将版面分析系统预测出的版面类别、文字、表格结构与 Query 之间进行向量检索,得到与 Query 相关的文本信息,然后送入 Prompt 生成器重新组合成,基于文心大语言模型将海量数据和知识的融合,信息抽取准确率高且应用广泛。其中版面分析系统中集成了图像矫正(可选)、版面区域定位、常规文本检测、印章文本检测、文本识别、表格识别等多个功能,可实现 CPU/GPU 上的高精度实时预测。通过大小模型的融合策略,各部分得以充分展现其优势:小模型以其高精度的图像处理能力脱颖而出,而大模型则展现出卓越的内容理解能力。
在研发 PP-ChatOCRv3-doc 同时,沉淀了 7 个实用的 OCR 基础模型,方便独立使用。具体如下:基于 RT-DETR 的 2 个高精度版面区域检测模型和 1 个基于 PicoDet 的高效率版面区域检测模型、高精度表格结构识别模型 SLANet_Plus 、文本图像矫正模型 UVDoc 、公式识别模型 LatexOCR 、基于 PP-LCNet 的文档图像方向分类模型。
ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.034em;">OCR 领域低代码全流程开发
飞桨低代码开发工具 PaddleX,依托于 PaddleOCR 的先进技术,支持了 OCR 领域的低代码全流程开发能力。通过低代码全流程开发,可实现简单且高效的模型使用、组合与定制。这将显著减少模型开发的时间消耗,降低其开发难度,大大加快模型在行业中的应用和推广速度。特色如下:
  • 模型丰富一键调用:将文本图像智能分析、通用 OCR 、通用版面解析、表格识别、公式识别、印章识别涉及的17 个模型整合为 6 条模型产线,通过极简的 Python API 一键调用,快速体验模型效果。此外,同一套 API ,也支持图像分类、目标检测、图像分割、时序预测等共计200+ 模型,形成 20+ 单功能模块,方便开发者进行模型组合使用。
  • 提高效率降低门槛:提供基于统一命令图形界面两种方式,实现模型简洁高效的使用、组合与定制。支持高性能推理、服务化部署和端侧部署等多种部署方式。此外,对于各种主流硬件如英伟达GPU、昆仑芯、昇腾、寒武纪和海光等,进行模型开发时,都可以无缝切换
下面是 PP-ChatOCRv3-doc 的快速推理程序,5 行代码实现经典模型和大语言模型的交互。
#安装PaddlePaddle和PaddleX,PP-ChatOCRv3-doc的快速推理程序frompaddleximportcreate_pipelinepredict=create_pipeline(pipeline="P-ChatOCRv3-doc",llm_name="ernie-3.5",llm_params={"api_type":"qianfan","ak":"","sk":""})visual_result,visual_info=pipeline.visual_predict("https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/contract.pdf")vector=pipeline.build_vector(visual_info=visual_info)chat_result=pipeline.chat(key_list=["乙方","手机号"],visual_info=visual_info,vector=vector)































回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ