LlamaParse[1] 是一个专为生成式人工智能(GenAI)设计的文档解析器,能够解析复杂的文档数据,以适应任何下游大型语言模型(LLM)的使用场景,如检索增强生成(RAG)或智能代理。
它能够解析多种复杂的文件类型,包括 PDF、PPTX、DOCX、XLSX 和 HTML,并且支持表格识别、多模态解析和自定义解析。
pip install llama-parse 命令安装 LlamaParse 包。importnest_asyncio
nest_asyncio.apply()
fromllama_parseimportLlamaParse
parser=LlamaParse(
api_key="llx-...",#也可以设置环境变量LLAMA_CLOUD_API_KEY
result_type="markdown",#可选"markdown"和"text"
num_workers=4,#如果上传多个文件,将分成`num_workers`个API调用
verbose=True,
language="en",#可选定义语言,默认为英文
)
#同步解析单个文件
documents=parser.load_data("./my_file.pdf")
#同步批量解析
documents=parser.load_data(["./my_file1.pdf","./my_file2.pdf"])
#异步解析单个文件
documents=awaitparser.aload_data("./my_file.pdf")
#异步批量解析
documents=awaitparser.aload_data(["./my_file1.pdf","./my_file2.pdf"])
注:本文内容仅供参考,具体项目特性请参照官方 GitHub 页面的最新说明。
| 欢迎光临 链载Ai (https://www.lianzai.com/) | Powered by Discuz! X3.5 |