链载Ai

标题: 12.5K star!快速精准实现PDF转Markdown,这个项目好强! [打印本页]

作者: 链载Ai    时间: 5 小时前
标题: 12.5K star!快速精准实现PDF转Markdown,这个项目好强!

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.578px;background-color: rgb(255, 255, 255);visibility: visible;">在我们日常的工作和学习中,PDF文件随处可见。然而,PDF文件的编辑和内容提取却不那么方便。很多时候,我们希望把PDF中的内容提取出来,转成Markdown格式,以便于编辑和发布。但这个过程通常很麻烦,需要手动复制粘贴,还要重新调整格式,简直是浪费时间和生命。

今天开源君介绍的这个项目就是为了解决这个问题- Marker,可以让PDF转Markdown变得简单高效。

项目简介

marker是一个基于深度学习模型的工具,能够快速且准确地将PDF文档转换成Markdown格式,不仅能保留PDF中的文本、图片和表格,还能尽量保持原有的排版结构。支持多种文档类型,尤其对书籍和科学论文进行了优化,并且支持多种语言。

Marker的转换流程:

marker的出现,为那些需要频繁处理PDF和Markdown的开发者、写作者和研究人员提供了极大的便利。

下图是 marker 和 nougat 的对比测试结果

目前在Github上面收获了12.5K star!

性能特色

快速使用

使用marker非常简单,首先你需要安装Python 3.9+和PyTorch。然后通过以下命令安装marker

pipinstallmarker-pdf

接下来,你可以通过以下命令快速转换单个PDF文件:

marker_single/path/to/file.pdf/path/to/output/folder--batch_multiplier2--max_pages10--langsEnglish

如果你想转换多个文件,可以使用:

marker/path/to/input/folder/path/to/output/folder--workers10--max10--metadata_file/path/to/metadata.json--min_length10000

项目体验展示

marker的转换效果如何呢?官方提供了部分例子,展示其对生产可用的复杂 PDF 转为 Markdown 的示例,如下图

可以看到,marker在对大段文字,公式,表格上面的处理相比以往的工具来说,还是进步了不少。

尽管Marker在转换PDF到Markdown方面表现出色,但它也有一些局限性:

总的来说,Marker是一个非常实用的开源工具,解决了我们在PDF转Markdown过程中的很多痛点。它不仅高效快速,而且操作简单,格式保持得也很好。感兴趣的可以去试试。






欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5