在 RAG 应用中,处理多样化的文件格式是一项常见且挑战性的任务,尤其是 PDF 文件的解析一直让开发者头疼。市面上虽然有不少 PDF 解析工具,但效果参差不齐,详情可参考上一篇《破解PDF解析难题:RAG中高效解析复杂PDF的最佳选择》。近日,微软开源了 Markitdown,宣称能够将任意文件转换为 Markdown 格式,何德何能短短数日就飙升到 23K 星星?其 PDF 解析能力究竟如何,本文将深入探讨这一工具的性能和潜力。
classPdfConverter(DocumentConverter): """ Converts PDFs to Markdown. Most style information is ignored, so the results are essentially plain-text. """
defconvert(self, local_path, **kwargs)-> Union[None, DocumentConverterResult]: # Bail if not a PDF extension = kwargs.get("file_extension","") ifextension.lower() !=".pdf": returnNone