返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

Dify Knowledge Pipeline 正式发布!

[复制链接]
链载Ai 显示全部楼层 发表于 昨天 22:21 |阅读模式 打印 上一主题 下一主题

今天,我们正式推出全新的 Knowledge Pipeline —— 可编排、可扩展、可观测的 RAG 数据处理管道。


在企业里,AI 落地的瓶颈往往不在模型,而在上下文工程(Context Engineering)。大量业务数据被封存在 PDF、PPT、Excel、图像、HTML 等非结构化文件中。


如何把分散、异构、持续更新的内部数据,稳定转化为 LLM 能可靠消费的上下文。这不是简单的数据导入,而是一项需要系统化设计与调优的工程。


ingFang SC", system-ui, -apple-system, "system-ui", "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;letter-spacing: 0.544px;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;visibility: visible;box-sizing: border-box !important;overflow-wrap: break-word !important;">面对企业级数据,传统 RAG 常因以下问题导致答案质量参差不齐:

ingFang SC", system-ui, -apple-system, "system-ui", "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;letter-spacing: 0.544px;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;visibility: visible;box-sizing: border-box !important;overflow-wrap: break-word !important;">1. 数据源割裂:企业数据分散在 ERP、Wiki、邮件、网盘等数十个系统中,每个系统都有独特的认证方式和数据格式,逐一适配成本高昂。

ingFang SC", system-ui, -apple-system, "system-ui", "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;letter-spacing: 0.544px;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;visibility: visible;box-sizing: border-box !important;overflow-wrap: break-word !important;">2. 异构数据解析难:文档或表格在解析后变成无序文本,图表、公式等多模态内容直接丢失,机械分块切断文档逻辑,导致 LLM 基于不完整的信息片段生成答案。

ingFang SC", system-ui, -apple-system, "system-ui", "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;letter-spacing: 0.544px;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;visibility: visible;box-sizing: border-box !important;overflow-wrap: break-word !important;">3. 处理过程黑盒:数据处理的每个环节都不可见,无法定位是解析错误、分块异常还是向量化失败,报错后复现困难,只能盲目调试。

ingFang SC", system-ui, -apple-system, "system-ui", "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;letter-spacing: 0.544px;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;visibility: visible;box-sizing: border-box !important;overflow-wrap: break-word !important;">

因此,Knowledge Pipeline 为 Context Engineering 提供了关键的数据处理基础设施:通过可视化、可编排的处理管道,让企业真正掌控从原始数据到高质量上下文的转化全过程。


ingFang SC", system-ui, -apple-system, "system-ui", "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;letter-spacing: 0.544px;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;visibility: visible;box-sizing: border-box !important;overflow-wrap: break-word !important;">可视化、可编排的 Knowledge Pipeline

ingFang SC", system-ui, -apple-system, "system-ui", "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;letter-spacing: 0.544px;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;visibility: visible;box-sizing: border-box !important;overflow-wrap: break-word !important;">Knowledge Pipeline 继承了 dify Workflow 的画布式编排体验,将 RAG 的 ETL 过程可视化。每个处理环节都是独立节点,从数据源接入、文档解析到分块策略,每步都能选择合适的插件,能够处理文本、图片、表格、扫描件等多模态资料。依托 Dify Marketplace 的插件生态,团队可以像搭积木一样编排文档处理产线,针对不同行业与数据形态定制流程。

ingFang SC", system-ui, -apple-system, "system-ui", "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;letter-spacing: 0.544px;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;visibility: visible;box-sizing: border-box !important;overflow-wrap: break-word !important;">在需要时,你还可以把 Workflow 节点里的逻辑节点、Code 节点、LLM 节点等嵌入到处理链路中,用大模型做内容增强,用代码做规则清洗,真正实现数据处理的灵活定制。


  1. ingFang SC", system-ui, -apple-system, "system-ui", "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;letter-spacing: 0.544px;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;visibility: visible;box-sizing: border-box !important;overflow-wrap: break-word !important;">企业主流数据源集成

ingFang SC", system-ui, -apple-system, "system-ui", "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;letter-spacing: 0.544px;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;visibility: visible;box-sizing: border-box !important;overflow-wrap: break-word !important;">为了突破原有的数据源限制,我们推出了全新的 Data Source 插件类型。通过插件化架构,每个知识库可以支持多个非结构化数据源接入。过去需要为每种数据源编写定制代码并维护认证逻辑,现在通过 Marketplace 插件即可一键接入。开发者还可以基于标准接口开发自己的数据源插件,接入特定的内部系统或专有平台。

已覆盖的主流数据源:

  • 本地文件:支持 30+ 种格式,包括 PDF、Word、Excel、PPT、Markdown 等

  • 云存储:Google Drive、AWS S3、Azure Blob、Box、OneDrive、Dropbox 等

  • 在线文档Notion、Confluence、SharePoint、GitLab、GitHub 等

  • 网页爬取:Firecrawl、Jina、Bright Data、Tavily 等服务


  1. 可插拔的数据处理管道

为了让数据处理的过程更具确定性,方便用户自由扩展和编排,我们把数据加工过程拆解为可插拔的标准节点,每一步都能按场景更换插件:


  • Extract(数据提取)

支持上文介绍的多数据源并行接入,能够统一处理文本、图片、音视频等多模态内容。后续节点会根据不同数据源的输出类型,如文件对象或页面内容,自动适配处理策略。

  • Transform(数据加工)

这是 Pipeline 的核心,大致可为四个组合环节:

  1. Parse(解析)

    根据文件类型选择最优解析器,提取文本与结构化元数据。针对扫描件 OCR、表格还原、PPT 文本框顺序等特殊情况,可并联多个解析器确保信息不丢失。

  2. Enrich(增强)

    通过 LLM 和其他逻辑节点实现实体抽取、摘要生成、标签分类、敏感信息脱敏等,提升内容质量。

  3. Chunk(分块)

    目前我们提供三种策略:General(通用)、Parent-Child(兼顾精度与上下文)、Q&A(结构化问答),满足不同文档类型需求。

  4. Embed(向量化)

    灵活选择嵌入模型,可按成本、语种、维度需求切换不同供应商。

  • Load(索引存储)

将处理后的向量与元数据写入知识库,建立高效索引。支持高质量向量索引和经济型倒排索引,可配置元数据标签用于精准过滤与权限控制。


在数据处理完成后,检索系统支持向量检索、全文检索或混合检索策略。通过元数据过滤、相关性重排序,输出包含原文引用的精准结果。最终由 LLM 进行组织和输出,支持图文混排,提高检索的准确率和用户体验。


  1. 可观测的数据调试过程

传统的数据处理流程如同黑盒,无法观察中间过程,问题排查困难。现在通过 Knowledge Pipeline,你可以用测试运行(Test Run)对整条 Pipeline 逐节点执行,查看每一步的输入输出是否符合预期;并通过变量监视器(Variable Inspect)对链路中的中间变量与上下文进行实时观察,快速定位解析错误、分块异常或元数据缺失等问题。

当调试通畅后,一键将 Pipeline 发布为可用状态,进入标准化数据处理。

阅读帮助文档,了解更多操作详情:

通过知识流水线创建知识库

https://docs.dify.ai/zh-hans/guides/knowledge-base/knowledge-pipeline/readme


  1. 场景丰富的内置模版

我们提供 7 类预置模板,满足不同处理需求:

  • 常规文档处理:General Mode (ECO),将文档分割为通用段落块,采用经济型索引,适合大批量文档的快速处理;

  • 长文档处理:Parent-Child (HQ),采用父子层级化分块策略,既能精准定位具体内容,又能保留完整上下文,适合技术文档、研究报告等长篇资料;

  • 表格数据提取:Simple Q&A,从表格中提取指定列生成结构化问答对,用户可以使用自然语言查询表格数据;

  • 复杂 PDF 解析:Complex PDF with Images & Tables,专门提取 PDF 中的图片和表格,方便后续检索多模态内容;

  • 多模态内容增强:Contextual Enrichment Using LLM,利用 LLM 理解图片和表格内容并生成文字描述,提高检索效率;

  • 文档格式转换:Convert to Markdown,将 Office 原生格式转换为 Markdown,提升处理效率和兼容性;

  • 智能问答对生成:LLM Generated Q&A,自动从文档提取关键信息生成问答对,将长文档转化为精准的知识点。


RAG 插件生态:

开放、灵活,面向企业的定制化能力

Dify 已构建起一个开放繁荣的插件生态系统,汇聚了官方、合作伙伴与社区的共同贡献。Knowledge Pipeline 基于插件化架构,让企业能够根据自身需求灵活选择数据处理工具:

  • Connector:接入 Google Drive、Notion、Confluence 等数十种数据源

  • Ingestion:选择 LlamaParse、Unstructured、各类 OCR 等专业解析工具

  • Storage:对接 Qdrant、Weaviate、Milvus、Oracle 等主流向量数据库,支持企业版和开源版自定义配置


为什么选择 Knowledge Pipeline ?

Knowledge Pipeline 是实践 Context Engineering 的重要一环,它负责把企业非结构化数据转换为高质量上下文,为下游的检索、推理和应用奠定坚实基础。

通过这一基础设施,企业能够获得三方面的核心价值:

  1. 连接业务需求和数据工程

Knowledge Pipeline 让业务团队也能参与 AI 系统的优化。通过可视化编排和实时调试,业务专家可以直接看到数据如何被处理,上手排查检索过程,无需和技术团队反复沟通需求,从而让技术团队专注于推动业务增长的核心项目中。

  1. 降低开发与维护成本

传统 RAG 项目多为一次性交付、按场景重复搭建。Dify Knowledge Pipeline 把数据处理做成可沉淀、可复用的能力:合同审查、客服知识库、技术文档等都能做成模板,在团队之间直接复制、按需调整,减少重复搭建和后期维护。

  1. 集成全球顶尖 RAG 厂商方案

企业不必再纠结于完全自研还是依赖单一厂商。各环节(如 OCR、文档解析、结构化提取、向量库、重排序)都可按需选型并随时替换,整体架构保持稳定。这种灵活性让企业始终能采用业界最优解。


What's Next

在最新版本中,我们对 Workflow 的底层引擎做了队列化图执行重构。新引擎解决了原有架构在处理复杂并行场景时的限制,支持更灵活的节点连接和执行控制。具体来说,它允许 Pipeline 从任意节点开始执行、支持中间节点的暂停与恢复,为后续的断点调试、Human-in-the-loop 、Trigger 等功能奠定了基础。

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ