项目简介基于多模态大语言模型的PDF转Markdown工具,高质量实现文档结构化转换 MarkPDFDown 是一款智能PDF转换Markdown工具,通过先进的多模态AI模型,能够将PDF文档准确转换为结构清晰的Markdown格式,保留原始文档的排版、表格、公式等复杂元素。
功能特性- PDF转Markdown
- 多模态理解
- 格式保留
- 模型定制
示例演示安装指南 conda create -n markpdfdown python=3.9conda activate markpdfdown
# 克隆仓库gitclonehttps://github.com/jorben/markpdfdown.gitcdmarkpdfdown
# 安装依赖pip install -r requirements.txt
使用指南# 设置OpenAI API密钥exportOPENAI_API_KEY=<你的API密钥># 可选设置API端点exportOPENAI_API_BASE=<你的API端点># 可选设置默认模型exportOPENAI_DEFAULT_MODEL=<你的模型>
# 运行转换程序python main.py < tests/input.pdf > output.md
高级用法#转换指定页码范围pythonmain.py起始页码结束页码<tests/input.pdf>output.md 在Docker中使用dockerrun-i-eOPENAI_API_KEY=<你的API密钥>-eOPENAI_API_BASE=<你的API端点>-eOPENAI_DEFAULT_MODEL=<你的模型>jorben/markpdfdown<tests/input.pdf>output.md
依赖环境
贡献指南欢迎贡献代码!请按以下流程提交PR: - 新建功能分支(
git checkout -b feature/somefeat) - 提交修改(
git commit -m 'feat: 添加XX新功能') - 推送分支(
git push origin feature/somefeat)
开源协议本项目采用 Apache License 2.0 开源协议,详见 LICENSE 文件。 |