返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

langchain实战 | 怎么进行超大文本摘要提取

[复制链接]
链载Ai 显示全部楼层 发表于 4 天前 |阅读模式 打印 上一主题 下一主题
文档摘要提取是一个处理大量文本信息的实用技术,能够将冗长的文档精简成核心内容的小段落。如果您有一堆文档,比如PDF文档、网页或客户问答等,而您想快速把握文档的主旨,文档摘要提取是一个不错的选择。

目前有一些强大的语言模型(LLMs)可以帮助我们进行文档摘要提取,它们拥有优秀的文本理解和合成能力。这些模型如何工作呢?简单来说,就是通过一些预设的步骤将文档内容输入到模型中,然后由模型输出文档的概要。
常见的两种方法是:
  1. "填充法(Stuff)":简单地将所有文档放入一个单一的输入提示符中。这是一种很简单的方法,适合用在大上下文窗口的模型,例如OpenAI的gpt-3.5-turbo-1106模型或Anthropic的Claude-2模型。
  2. "映射-归约法(Map-Reduce)":在"映射"步骤中分别对每个文档进行摘要,然后通过"归约"步骤将所有摘要合并成一个最终的总结。
如果我们想要总结一个博客文章,这个流程可以通过几行代码实现。安装必要的软件包并设置环境变量之后,我们可以使用 load_summarize_chain 这个函数来创建一个预览管道。
例如,我们可以如下编写代码:

fromlangchain.chains.summarizeimportload_summarize_chainfromlangchain_community.document_loadersimportWebBaseLoaderfromlangchain_openaiimportChatOpenAI#加载网络文档loader=WebBaseLoader("<您博客文章的URL>")docs=loader.load()#配置LLM,例如使用OpenAI的模型llm=ChatOpenAI(temperature=0,model_name="gpt-3.5-turbo-1106")chain=load_summarize_chain(llm,chain_type="stuff")#执行文档总结summary=chain.run(docs)print(summary)
上述代码将会输出文章的概要内容。如果文章太长而无法直接输入到模型中,我们还可以使用 "映射-归约法"。首先把每篇文档分别摘要,然后合并摘要内容。
此外,"细化法(Refine)"是"映射-归约法"的变体,通过迭代地更新其答案来构建响应。对于每个文档,它将所有非文档输入、当前文档和最新的中间答案传递给一个LLM链,以获得一个新的答案。
我们可以通过指定 chain_type="refine" 快速实施模型细化处理:

fromlangchain_core.documents.baseimportDocumentasLangchainDocumentdocs=LangchainDocument(page_content=content,metadata={})fromlangchain_text_splittersimportCharacterTextSplitterfromlangchain.chains.summarizeimportload_summarize_chain#DefineLLMchainllm=ChatOpenAI(temperature=0,model_name="gpt-3.5-turbo-16k")chain=load_summarize_chain(llm,chain_type="refine")text_splitter=CharacterTextSplitter.from_tiktoken_encoder(chunk_size=max_token,chunk_overlap=0)split_docs=text_splitter.split_documents([docs])summary=chain.run(split_docs)

总之,通过这些技术,我们可以将冗长且可能杂乱无章的信息,转化成清晰、精炼、信息量密集的概要。这项技术对于想要快速吸收信息的业务人员、研究人员甚至是日常的信息消费者来说,都是一个非常有用的工具。





回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ