链载Ai

标题: 11K star!一站式数据提取神器,PDF、网页、电子书通通搞定! [打印本页]

作者: 链载Ai    时间: 8 小时前
标题: 11K star!一站式数据提取神器,PDF、网页、电子书通通搞定!

我们每天都要和各种文档打交道,PDF文档、网页、电子书……这些格式各异的文档让我们既爱又恨。爱的是它们携带的丰富信息,恨的是处理和提取这些信息时的繁琐与不便。

今天开源君来和大家聊聊一个超级给力的开源项目 - MinerU,别看它名字听起来像挖矿的,实际上,它可是文档处理和提取的“神器”!

项目简介

MinerU一个由opendatalab团队打造的一站式开源数据提取工具,旨在帮助研究人员和开发者更方便地获取、处理、分析数据。它支持多种数据集的管理,自动化的数据清洗,并且还有强大的模型库,简直就是文档处理界的“瑞士军刀”!

它主要由两个组件构成:Magic-PDF和Magic-Doc。Magic-PDF专攻PDF文档的提取,而Magic-Doc则负责网页和电子书的提取工作。有了它们俩,无论是学术研究、技术写作还是日常办公,文档处理都变得轻松愉快。

目前在Github上收获了11K star!

性能特色

快速安装部署

想要快速上手MinerU,可以直接使用官方9月份刚刚上线的online Demo,在OpenDataLab、HuggingFace、ModelScope上面均有部署,可以直接使用。

想本地部署的话,也是可以的。安装前注意看软硬件环境支持说明。

使用CPU的快速部署:

#1.安装依赖
condacreate-nMinerUpython=3.10
condaactivateMinerU
pipinstall-Umagic-pdf[full]--extra-index-urlhttps://wheels.myhloli.com-ihttps://pypi.tuna.tsinghua.edu.cn/simple

#2.下载模型权重文件
#根据官方文档(https://github.com/opendatalab/MinerU/blob/master/docs/how_to_download_models_en.md)指示操作

#3.配置Magic-PDF
cpmagic-pdf.template.json~/magic-pdf.json
#编辑~/magic-pdf.json,设置正确的模型文件路径

#4.开始使用
magic-pdf--help
magic-pdf-p{some_pdf}-o{some_output_dir}-mauto

使用GPU的快速部署:

官方介绍了Ubuntu 22.04 LTS + GPU、Windows 10/11 + GPU和Docker(需要有16GB 的 VRAM)的三种情况,需要的可以去详细查看。

效果展示

MinerU是一款功能强大、易于上手的开源数据提取工具。它不仅能帮助我们提高文档处理效率,还能让我们更加便捷地分享和利用信息。无论你是学生党、研究者还是工作党,只要你需要处理文档,MinerU都能成为你的得力助手。






欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5