链载Ai

标题: PaddleOCR 2.9 发布, 正式开源文本图像智能分析利器 [打印本页]

作者: 链载Ai    时间: 4 小时前
标题: PaddleOCR 2.9 发布, 正式开源文本图像智能分析利器
OCR 方向的工程师,之前一定听说过 PaddleOCR 这个项目。目前项目累计 Star数量已超过 43k+ ,安装包月下载量超过 40w+ 。

滑动查看更多图片

本次 PaddleOCR 最新发版,带来两大重磅升级,包括:
PaddleOCR 代码库地址,欢迎大家star:
https://github.com/PaddlePaddle/PaddleOCR
PP-ChatOCRv3-doc 在线体验地址:
https://aistudio.baidu.com/community/app/182491/webUI
下面我们就对上述升级依次进行说明。

文档场景信息抽取v3开源版
PP-ChatOCRv3-doc 的系统流程如下图所示:首先输入预测图片,送入通用 版面分析 系统,经过版面分析后,预测图像中的文字信息和表格结构。将版面分析系统预测出的版面类别、文字、表格结构与 Query 之间进行向量检索,得到与 Query 相关的文本信息,然后送入 Prompt 生成器重新组合成,基于文心大语言模型将海量数据和知识的融合,信息抽取准确率高且应用广泛。其中版面分析系统中集成了图像矫正(可选)、版面区域定位、常规文本检测、印章文本检测、文本识别、表格识别等多个功能,可实现 CPU/GPU 上的高精度实时预测。通过大小模型的融合策略,各部分得以充分展现其优势:小模型以其高精度的图像处理能力脱颖而出,而大模型则展现出卓越的内容理解能力。
在研发 PP-ChatOCRv3-doc 同时,沉淀了 7 个实用的 OCR 基础模型,方便独立使用。具体如下:基于 RT-DETR 的 2 个高精度版面区域检测模型和 1 个基于 PicoDet 的高效率版面区域检测模型、高精度表格结构识别模型 SLANet_Plus 、文本图像矫正模型 UVDoc 、公式识别模型 LatexOCR 、基于 PP-LCNet 的文档图像方向分类模型。
ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.034em;">OCR 领域低代码全流程开发
飞桨低代码开发工具 PaddleX,依托于 PaddleOCR 的先进技术,支持了 OCR 领域的低代码全流程开发能力。通过低代码全流程开发,可实现简单且高效的模型使用、组合与定制。这将显著减少模型开发的时间消耗,降低其开发难度,大大加快模型在行业中的应用和推广速度。特色如下:
下面是 PP-ChatOCRv3-doc 的快速推理程序,5 行代码实现经典模型和大语言模型的交互。
#安装PaddlePaddle和PaddleX,PP-ChatOCRv3-doc的快速推理程序frompaddleximportcreate_pipelinepredict=create_pipeline(pipeline="P-ChatOCRv3-doc",llm_name="ernie-3.5",llm_params={"api_type":"qianfan","ak":"","sk":""})visual_result,visual_info=pipeline.visual_predict("https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/contract.pdf")vector=pipeline.build_vector(visual_info=visual_info)chat_result=pipeline.chat(key_list=["乙方","手机号"],visual_info=visual_info,vector=vector)




































欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5