对话式 RAG：让你的问答应用更“聪明”

显示全部楼层

在很多问答（Q&A）应用中，用户希望和机器人进行自然的多轮对话。这意味着应用不仅要能回答单个问题，还需要具备“记忆”功能，把过去的问题和答案利用起来，才能让对话连贯。

本文将介绍如何在RAG（Retrieval-Augmented Generation，检索增强生成）的基础上，扩展支持对话交互。

🔑 核心思路

传统的 RAG 通常是这样的流程：

👉 用户输入问题 → 检索文档 → 生成答案

在对话场景中，我们需要把历史消息纳入考虑。本文介绍了两种方式：

在对话式应用里，不同类型的消息都会被记录：

整个对话过程就像一条消息链，模型不仅能看到用户和助手的对话，还能结合工具调用结果来生成更合理的答案。

在多轮对话中，用户的问题往往需要结合上下文才能理解。比如：

用户：耐克在美国有多少个配送中心？
AI：耐克在美国有 8 个配送中心。
用户：在美国之外有哪些？

这时模型会自动把用户模糊的问题改写为完整的检索查询：
👉 “耐克在美国之外有哪些配送中心？”

这样即使用户没说全，模型也能自动补全上下文。

应用的核心流程可以抽象为三个节点：

这种设计保证了灵活性：

要支持多轮对话，应用需要保存历史对话。文章中介绍了使用LangGraph 的持久化机制：

这让应用更像一个真正的对话助手，而不是“单问单答”的工具。

对话式 RAG 的关键点：

通过这些改造，你的问答机器人就能更自然地理解上下文、灵活检索信息，并保持连贯对话。

✨ 未来我们还可以进一步探索：如何在对话中结合更复杂的多工具协作，甚至让智能体像人一样自由选择信息来源。