链载Ai

标题: PDF 秒变高质量 Markdown 文件,国产开源神器绝了。 [打印本页]

作者: 链载Ai    时间: 1 小时前
标题: PDF 秒变高质量 Markdown 文件,国产开源神器绝了。
在大模型与RAG技术快速发展的当下,结构化数据对于智能系统的重要性日益凸显。将文档图像、PDF等非结构化数据精准地转换成结构化数据(如Markdown、JSON)已成为行业待解决的关键问题。

目前众多开源方案在处理复杂文档情形时,都会遇到文字识别能力差、阅读顺序无法正确恢复、表格识别不准、长难公式无法解析等问题。基于广大用户的反馈和对行业痛点的分析,飞桨团队从文档解析的多个模块全栈优化,打造了新一代文档解析利器——PP-StructureV3,即使面对复杂文档场景,依旧游刃有余,为解决大模型训练微调的数据缺失和大模型的落地问题,提供强有力的保障。

该方案已随着PaddleOCR3.0 的发布,全面开源!

01

ingFang SC", system-ui, -apple-system, "system-ui", "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 17px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: 0.544px;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;background-color: rgb(255, 255, 255);visibility: visible;">PP-StructureV3优势

精度高:PP-StructureV3支持多种场景、多种版式文档图像或PDF文件的高精度解析,可以将文档图像或者PDF文件无缝转换为带图像、文本、表格、阅读顺序等内容的Markdown文件和带文字、段落等坐标信息的JSON文件。PP-StructureV3在OmniDocBench基准测试中领先众多开源和闭源方案。

注:以上精度信息除PP-StructureV3和MinerU-1.3.11为自测精度外,均来自OmniDocBench

多项专精能力P-StructureV3除了在OmniDocBench上的精度指标更高之外,还拥有很多其他开源文档解析方案没有的专精能力,如:印章识别、图表解析、含公式/图片的表格识别、竖排文本解析、中文公式、化学方程式复杂表格识别——这些能力是很多重要场景AI应用落地的刚需。

02

ingFang SC", system-ui, -apple-system, "system-ui", "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 17px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: 0.544px;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;background-color: rgb(255, 255, 255);visibility: visible;">效果速览

文档解析效果速览

<<<左右滑动查看更多图片<<<
<<<左右滑动查看更多图片<<<
<<<左右滑动查看更多图片<<<
<<<左右滑动查看更多图片<<<
<<<左右滑动查看更多图片<<<

<<<左右滑动查看更多图片<<<

<<<左右滑动查看更多图片<<<

在文档解析任务中,阅读顺序恢复能力尤为重要,飞桨团队自研了全新的阅读顺序恢复解决方案,不仅可以应对常规文档,也可以应对报纸、复杂布局的杂志、试卷等较难的文档场景。对于复杂布局的文档,PP-StructureV3的阅读顺序恢复能力远超其他文档解析方案。

复杂文档阅读顺序效果速览

左右滑动查看更多图片

<<<左右滑动查看更多图片<<<


<<<左右滑动查看更多图片<<<

<<<左右滑动查看更多图片<<<

此外,如前文所述,PP-StructureV3也支持将图表转换为表格,图表中的关键数据的获取不再困难。

图表转表效果速览

左右滑动查看更多图片

03

ingFang SC", system-ui, -apple-system, "system-ui", "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 17px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: 0.544px;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;background-color: rgb(255, 255, 255);visibility: visible;">算法介绍

PP-StructureV3采用了一种精细化的模型组合策略,通过高效协调不同模型的输入输出,来实现高精度的文档解析。首先,文档图像经过文档预处理(可选),然后执行版面区域分析和文字识别。

接下来,版面区域分析和文字识别的融合结果会基于其所属的不同版面类型被分别传送到表格识别、公式识别、图表解析和印章识别等多个子模块。最后,阅读顺序恢复模块对不同版面区域的识别结果基于人类阅读顺序进行排序,生成最终的文档解析结果——对应的Markdown文档和JSON文件。以上各个模块涉及的模型算法,飞桨团队均进行了全栈自研,并对关键模块做了细致优化。

其中几个重要模块的核心能力升级优化点如下:

04

ingFang SC", system-ui, -apple-system, "system-ui", "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 17px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: 0.544px;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;background-color: rgb(255, 255, 255);visibility: visible;">使用方式

为了方便开发者使用PP-StructureV3,我们提供了极简API方案,可快速实现本地推理和服务化部署:

本地推理

本地推理提供了两种方式,即CLI预测和Python API的方式,其中CLI预测方式如下:

#支持传入URL、图片路径、文件夹路径、PDF文件、PDF文件夹路径等paddleocrpp_structurev3-ipp_structure_v3_demo.png
Python API预测方式如下:
frompaddleocrimportPPStructureV3pipeline=PPStructureV3()output=pipeline.predict("./pp_structure_v3_demo.png")forresinoutput:res.print()##打印预测的结构化输出res.save_to_json(save_path="output")##保存当前图像的结构化json结果res.save_to_markdown(save_path="output")##保存当前图像的markdown格式的结果

经过预测后,会通过save_to_json()save_to_markdown()方法将文档图像的结构化JSON结果和Markdown结果保存在save_path中。

服务化部署

PaddleX提供了PaddleOCR的服务化部署能力,可以通过PaddleX快速完成PP-StructureV3的服务启动。

CLI 一键启动服务:

paddlex--installservingpaddlex--serve--pipelinePP-StrcutureV3
服务启动后,客户端通过少量代码即可调用服务。
importbase64importrequestsimportpathlibAPI_URL="http://localhost:8080/layout-parsing"#服务URLimage_path="./pp_structure_v3_demo.png"#对本地图像进行Base64编码withopen(image_path,"rb")asfile:image_bytes=file.read()image_data=base64.b64encode(image_bytes).decode("ascii")payload={"file":image_data,#Base64编码的文件内容或者文件URL"fileType":1,#文件类型,1表示图像文件}#调用APIresponse=requests.post(API_URL,json=payload)#处理接口返回数据assertresponse.status_code==200result=response.json()["result"]print(result)

关于 PP-StrutureV3 的其他介绍,详见 PaddleOCR 官方文档

方案介绍:

https://paddlepaddle.github.io/PaddleOCR/latest/version3.x/algorithm/PP-StructureV3/PP-StructureV3.html

使用教程:

https://paddlepaddle.github.io/PaddleOCR/latest/version3.x/pipeline_usage/PP-StructureV3.html






欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5