链载Ai
标题: 微软开源!58K 星的 Office 文档转换神器,支持 MCP。 [打印本页]
作者: 链载Ai 时间: 昨天 21:09
标题: 微软开源!58K 星的 Office 文档转换神器,支持 MCP。
微软开源了一个文档转换神器:markitdown,目前已经在 GitHub 上获得了58K+ 的 Star 了。微软开源的转换工具肯定和其它的有所不同,毕竟 Office 格式就是微软定义的标准。相比于其它大厂,微软更懂 Office 格式。他们开源的格式转换开源工具,会不会很强?看这个开源项目的名字也能猜出来:它能够把任何格式的文件转换成 Markdown 文档。上述格式都支持一键转换成清清爽爽可编辑的 Markdown 文件。如果是图片还会自动 OCR 识别图中的内容,生成一个清晰易读的 Markdown 文档。
转换成 Markdown 文档后,就方便 AI 大模型解析了。比如豆包、Kimi 等等大模型,如果丢给他一个 PDF 让他解读,背后都会先转换成 Markdown,再输入给 AI 进行总结分析。和微信的提取文字不太一样,markitdown 项目介绍提到:会保留文档的重要结构和内容,将其以 Markdown 格式显示(比如标题、列表、表格、链接等)
实测效果有些出入...
01
ingFang SC", system-ui, -apple-system, "system-ui", "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 17px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: 0.544px;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;background-color: rgb(255, 255, 255);visibility: visible;">看看实际效果逛逛实测了一下,虽然输出结果通常清晰易读,适合人工查看,但其主要目的还是作为中间介质提供给 AI 大模型或者文本分析工具。
如果对阅读体验要求极高,格式还原效果极其严苛,markitdown可能并不适合。
① 运行如下命令安装
pipinstall'markitdown[all]'
然后你可以在命令行中直接运行,或者调用 Python API:
PDF 文件转换,左边屏是源文件,右半屏是转换后的MD,发现标题并没有保留呀?
表格类型 PDF但是如果我上传的 PDF 是下面这种表格的样式,其实得到的 Markdown 效果就比较差了。
因为这不是普通表格 PDF,有很多合并:
标准 Excel,如果是转换比较标准的 Excel 表格,效果还是不错的。左边屏是源文件:
再来看看 PPT 文件,转换的效果:
再看看一个标准的 PDF 文档,不知道是不是我操作有问题?说好的保留标题、表格样式呢...
02
ingFang SC", system-ui, -apple-system, "system-ui", "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 17px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: 0.544px;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;background-color: rgb(255, 255, 255);visibility: visible;">支持 MCP前段时间发了一个国产 OCR 开源神器的帖子,还有读者问那个 OCR 开源项目是否支持 MCP。
微软开源的这个markitdown 支持 MCP 协议,它提供了一个轻量级的 STDIO、Streamable HTTP 和 SSE MCP 服务器,用于调用 MarkItDown。
公开了一个工具:convert_to_markdown(uri),其中 uri 可以是任何http:、https:、file:或data:URI。
运行 MCP 服务
你可以使用如下两个命令运行 MCP Server,第一个是 STDIO,第二个是Streamable HTTP 和 SSE MCP
markitdown-mcp--http--host127.0.0.1--port3001
当然如果你想在 Docker 中运行,可以参考下图中的步骤。
这样你就能在 Cursor 等 MCP 客户端重配置这个MCP 服务,流程很简单。
拿 Cusor 客户端举例子,打开设置 -> MCP -> 添加一个 MCP 服务器。这个时候把如下代码复制进去就行了,后面你就能使用这个 MCP 服务了。
{
"mcpServers": {
"markitdown": {
"command":"docker",
"args": [
"run",
"--rm",
"-i",
"-v",
"/home/user/data:/workdir",
"markitdown-mcp:latest"
]
}
}
}

![]()
| 欢迎光临 链载Ai (https://www.lianzai.com/) |
Powered by Discuz! X3.5 |