返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

基于多模态大语言模型的 PDF 转 Markdown 工具MarkPDFDown

[复制链接]
链载Ai 显示全部楼层 发表于 10 小时前 |阅读模式 打印 上一主题 下一主题

项目简介

基于多模态大语言模型的PDF转Markdown工具,高质量实现文档结构化转换

MarkPDFDown 是一款智能PDF转换Markdown工具,通过先进的多模态AI模型,能够将PDF文档准确转换为结构清晰的Markdown格式,保留原始文档的排版、表格、公式等复杂元素。


功能特性

  • PDF转Markdown
    :支持任意PDF文档的格式转换
  • 多模态理解
    :利用AI理解文档结构和内容
  • 格式保留
    :完整保留标题、列表、表格等排版元素
  • 模型定制
    :支持自定义AI模型参数配置


示例演示



安装指南

conda create -n markpdfdown python=3.9conda activate markpdfdown
# 克隆仓库gitclonehttps://github.com/jorben/markpdfdown.gitcdmarkpdfdown
# 安装依赖pip install -r requirements.txt

使用指南

# 设置OpenAI API密钥exportOPENAI_API_KEY=<你的API密钥># 可选设置API端点exportOPENAI_API_BASE=<你的API端点># 可选设置默认模型exportOPENAI_DEFAULT_MODEL=<你的模型>
# 运行转换程序python main.py < tests/input.pdf > output.md

高级用法

#转换指定页码范围pythonmain.py起始页码结束页码<tests/input.pdf>output.md

在Docker中使用

dockerrun-i-eOPENAI_API_KEY=<你的API密钥>-eOPENAI_API_BASE=<你的API端点>-eOPENAI_DEFAULT_MODEL=<你的模型>jorben/markpdfdown<tests/input.pdf>output.md


依赖环境

  • Python 3.9+
  • 依赖库详见requirements.txt
  • 可访问的多模态AI模型服务


贡献指南

欢迎贡献代码!请按以下流程提交PR:

  1. Fork 本仓库
  2. 新建功能分支(git checkout -b feature/somefeat
  3. 提交修改(git commit -m 'feat: 添加XX新功能'
  4. 推送分支(git push origin feature/somefeat
  5. 提交Pull Request


开源协议

本项目采用 Apache License 2.0 开源协议,详见 LICENSE 文件。

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ