Dify Knowledge Pipeline 正式发布！

显示全部楼层

今天，我们正式推出全新的 Knowledge Pipeline —— 可编排、可扩展、可观测的 RAG 数据处理管道。

在企业里，AI 落地的瓶颈往往不在模型，而在上下文工程（Context Engineering）。大量业务数据被封存在 PDF、PPT、Excel、图像、HTML 等非结构化文件中。

如何把分散、异构、持续更新的内部数据，稳定转化为 LLM 能可靠消费的上下文。这不是简单的数据导入，而是一项需要系统化设计与调优的工程。

ingFang SC", system-ui, -apple-system, "system-ui", "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;letter-spacing: 0.544px;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;visibility: visible;box-sizing: border-box !important;overflow-wrap: break-word !important;">面对企业级数据，传统 RAG 常因以下问题导致答案质量参差不齐：

ingFang SC", system-ui, -apple-system, "system-ui", "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;letter-spacing: 0.544px;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;visibility: visible;box-sizing: border-box !important;overflow-wrap: break-word !important;">1. 数据源割裂：企业数据分散在 ERP、Wiki、邮件、网盘等数十个系统中，每个系统都有独特的认证方式和数据格式，逐一适配成本高昂。

ingFang SC", system-ui, -apple-system, "system-ui", "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;letter-spacing: 0.544px;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;visibility: visible;box-sizing: border-box !important;overflow-wrap: break-word !important;">2. 异构数据解析难：文档或表格在解析后变成无序文本，图表、公式等多模态内容直接丢失，机械分块切断文档逻辑，导致 LLM 基于不完整的信息片段生成答案。

ingFang SC", system-ui, -apple-system, "system-ui", "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;letter-spacing: 0.544px;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;visibility: visible;box-sizing: border-box !important;overflow-wrap: break-word !important;">3. 处理过程黑盒：数据处理的每个环节都不可见，无法定位是解析错误、分块异常还是向量化失败，报错后复现困难，只能盲目调试。

ingFang SC", system-ui, -apple-system, "system-ui", "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;letter-spacing: 0.544px;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;visibility: visible;box-sizing: border-box !important;overflow-wrap: break-word !important;">

因此，Knowledge Pipeline 为 Context Engineering 提供了关键的数据处理基础设施：通过可视化、可编排的处理管道，让企业真正掌控从原始数据到高质量上下文的转化全过程。

ingFang SC", system-ui, -apple-system, "system-ui", "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;letter-spacing: 0.544px;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;visibility: visible;box-sizing: border-box !important;overflow-wrap: break-word !important;">可视化、可编排的 Knowledge Pipeline

ingFang SC", system-ui, -apple-system, "system-ui", "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;letter-spacing: 0.544px;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;visibility: visible;box-sizing: border-box !important;overflow-wrap: break-word !important;">Knowledge Pipeline 继承了 dify Workflow 的画布式编排体验，将 RAG 的 ETL 过程可视化。每个处理环节都是独立节点，从数据源接入、文档解析到分块策略，每步都能选择合适的插件，能够处理文本、图片、表格、扫描件等多模态资料。依托 Dify Marketplace 的插件生态，团队可以像搭积木一样编排文档处理产线，针对不同行业与数据形态定制流程。

ingFang SC", system-ui, -apple-system, "system-ui", "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;letter-spacing: 0.544px;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;visibility: visible;box-sizing: border-box !important;overflow-wrap: break-word !important;">在需要时，你还可以把 Workflow 节点里的逻辑节点、Code 节点、LLM 节点等嵌入到处理链路中，用大模型做内容增强，用代码做规则清洗，真正实现数据处理的灵活定制。

ingFang SC", system-ui, -apple-system, "system-ui", "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;letter-spacing: 0.544px;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;visibility: visible;box-sizing: border-box !important;overflow-wrap: break-word !important;">企业主流数据源集成

ingFang SC", system-ui, -apple-system, "system-ui", "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;letter-spacing: 0.544px;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;visibility: visible;box-sizing: border-box !important;overflow-wrap: break-word !important;">为了突破原有的数据源限制，我们推出了全新的 Data Source 插件类型。通过插件化架构，每个知识库可以支持多个非结构化数据源接入。过去需要为每种数据源编写定制代码并维护认证逻辑，现在通过 Marketplace 插件即可一键接入。开发者还可以基于标准接口开发自己的数据源插件，接入特定的内部系统或专有平台。

已覆盖的主流数据源：

本地文件：支持 30+ 种格式，包括 PDF、Word、Excel、PPT、Markdown 等
云存储：Google Drive、AWS S3、Azure Blob、Box、OneDrive、Dropbox 等
在线文档：Notion、Confluence、SharePoint、GitLab、GitHub 等
网页爬取：Firecrawl、Jina、Bright Data、Tavily 等服务

可插拔的数据处理管道

为了让数据处理的过程更具确定性，方便用户自由扩展和编排，我们把数据加工过程拆解为可插拔的标准节点，每一步都能按场景更换插件：

Extract（数据提取）

支持上文介绍的多数据源并行接入，能够统一处理文本、图片、音视频等多模态内容。后续节点会根据不同数据源的输出类型，如文件对象或页面内容，自动适配处理策略。

Transform（数据加工）

这是 Pipeline 的核心，大致可为四个组合环节：

Parse（解析）
根据文件类型选择最优解析器，提取文本与结构化元数据。针对扫描件 OCR、表格还原、PPT 文本框顺序等特殊情况，可并联多个解析器确保信息不丢失。
Enrich（增强）
通过 LLM 和其他逻辑节点实现实体抽取、摘要生成、标签分类、敏感信息脱敏等，提升内容质量。
Chunk（分块）
目前我们提供三种策略：General（通用）、Parent-Child（兼顾精度与上下文）、Q&A（结构化问答），满足不同文档类型需求。
Embed（向量化）
灵活选择嵌入模型，可按成本、语种、维度需求切换不同供应商。

Load（索引存储）

将处理后的向量与元数据写入知识库，建立高效索引。支持高质量向量索引和经济型倒排索引，可配置元数据标签用于精准过滤与权限控制。

在数据处理完成后，检索系统支持向量检索、全文检索或混合检索策略。通过元数据过滤、相关性重排序，输出包含原文引用的精准结果。最终由 LLM 进行组织和输出，支持图文混排，提高检索的准确率和用户体验。

可观测的数据调试过程

传统的数据处理流程如同黑盒，无法观察中间过程，问题排查困难。现在通过 Knowledge Pipeline，你可以用测试运行（Test Run）对整条 Pipeline 逐节点执行，查看每一步的输入输出是否符合预期；并通过变量监视器（Variable Inspect）对链路中的中间变量与上下文进行实时观察，快速定位解析错误、分块异常或元数据缺失等问题。

当调试通畅后，一键将 Pipeline 发布为可用状态，进入标准化数据处理。

阅读帮助文档，了解更多操作详情：

通过知识流水线创建知识库
https://docs.dify.ai/zh-hans/guides/knowledge-base/knowledge-pipeline/readme

场景丰富的内置模版

我们提供 7 类预置模板，满足不同处理需求：

常规文档处理：General Mode (ECO)，将文档分割为通用段落块，采用经济型索引，适合大批量文档的快速处理；
长文档处理：Parent-Child (HQ)，采用父子层级化分块策略，既能精准定位具体内容，又能保留完整上下文，适合技术文档、研究报告等长篇资料；
表格数据提取：Simple Q&A，从表格中提取指定列生成结构化问答对，用户可以使用自然语言查询表格数据；
复杂 PDF 解析：Complex PDF with Images & Tables，专门提取 PDF 中的图片和表格，方便后续检索多模态内容；
多模态内容增强：Contextual Enrichment Using LLM，利用 LLM 理解图片和表格内容并生成文字描述，提高检索效率；
文档格式转换：Convert to Markdown，将 Office 原生格式转换为 Markdown，提升处理效率和兼容性；
智能问答对生成：LLM Generated Q&A，自动从文档提取关键信息生成问答对，将长文档转化为精准的知识点。

RAG 插件生态：

开放、灵活，面向企业的定制化能力

Dify 已构建起一个开放繁荣的插件生态系统，汇聚了官方、合作伙伴与社区的共同贡献。Knowledge Pipeline 基于插件化架构，让企业能够根据自身需求灵活选择数据处理工具：

Connector：接入 Google Drive、Notion、Confluence 等数十种数据源
Ingestion：选择 LlamaParse、Unstructured、各类 OCR 等专业解析工具
Storage：对接 Qdrant、Weaviate、Milvus、Oracle 等主流向量数据库，支持企业版和开源版自定义配置

为什么选择 Knowledge Pipeline ？

Knowledge Pipeline 是实践 Context Engineering 的重要一环，它负责把企业非结构化数据转换为高质量上下文，为下游的检索、推理和应用奠定坚实基础。

通过这一基础设施，企业能够获得三方面的核心价值：

连接业务需求和数据工程

Knowledge Pipeline 让业务团队也能参与 AI 系统的优化。通过可视化编排和实时调试，业务专家可以直接看到数据如何被处理，上手排查检索过程，无需和技术团队反复沟通需求，从而让技术团队专注于推动业务增长的核心项目中。

降低开发与维护成本

传统 RAG 项目多为一次性交付、按场景重复搭建。Dify Knowledge Pipeline 把数据处理做成可沉淀、可复用的能力：合同审查、客服知识库、技术文档等都能做成模板，在团队之间直接复制、按需调整，减少重复搭建和后期维护。

集成全球顶尖 RAG 厂商方案

企业不必再纠结于完全自研还是依赖单一厂商。各环节（如 OCR、文档解析、结构化提取、向量库、重排序）都可按需选型并随时替换，整体架构保持稳定。这种灵活性让企业始终能采用业界最优解。

What's Next

在最新版本中，我们对 Workflow 的底层引擎做了队列化图执行重构。新引擎解决了原有架构在处理复杂并行场景时的限制，支持更灵活的节点连接和执行控制。具体来说，它允许 Pipeline 从任意节点开始执行、支持中间节点的暂停与恢复，为后续的断点调试、Human-in-the-loop 、Trigger 等功能奠定了基础。