返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

Dify RAG合同生成:条款级工作流案例拆解

[复制链接]
链载Ai 显示全部楼层 发表于 1 小时前 |阅读模式 打印 上一主题 下一主题

上周知识星球内有个关于合同生成的提问,就是想把历史文档作为知识库在工作流中召回仿写。实际我在 4 月底就在星球中回复过合同生成的相关实现思路参考,大致就是 LLM 负责理解与初步生成,使用 Code 节点接收 LLM 提取出的结构化信息,最后使用 LM 负责最终润色。

这部分内容我分两篇文章来介绍,这篇先聚焦于构建一个基于知识库的智能合同生成工作流。通过“离线知识预处理”与“在线并行生成”相结合的架构,实现针对不同业务场景的、高质量的 NDA(保密协议)动态生成。下一篇介绍如何在这篇的基础上,如何进一步实现从多个异构源文档中进行精准的结构化数据提取,并结合代码节点完成复杂的跨文档计算,最终生成一份高度格式化的报告。

这篇试图说清楚:

基于业务场景动态生成合同的价值所在、历史合同如何进行预处理得以符合知识库的要求、条款级并行处理的工程实现,以及下一篇涉及复杂跨文档计算的报价单生成内容预告。

以下,enjoy:

1

为什么选择 NDA

保密协议是企业在进行商业合作、技术交流、员工招聘等几乎所有重要活动前,必须签署的基础法律文件。从使用频率和普适性上来说,这玩意确实是横跨所有行业、所有规模的企业。这也使得根据业务场景自动化生成的 ROI(投资回报率)很高。

NDA 的结构非常经典且模块化,通常包括:定义条款 、保密义务、除外条款、保密期限、信息返还与销毁、违约责任、适用法律与争议解决。从落地可行性上来说,这也是天然的适合 LLM 解析+Code 精确填充的做法。

但需要说明的是,虽然结构标准,但条款的具体措辞根据业务场景不同还是有很大差别。一份定义不清、权责不明、期限不当的 NDA,导致核心信息潜在泄露的风险也会让公司陷入很大的被动。当然,这也是 RAG 在这个应用场景发挥用武之处的关键所在。

比如对“保密信息”的定义是宽泛还是具体?是否要包含口头披露的信息?在下述演示中 RAG 发挥的效果类似:当 LLM 生成此条款时,会从历史合同知识库中,召回多个不同版本的“保密信息定义”条款。例如,召回“投资尽调场景下的宽泛定义条款”、“技术外包场景下的具体定义条款”等,供 LLM 参考,从而生成最贴合当前"purpose": "评估潜在的技术合作"的条款内容。

2

为什么要动态生成合同

在正式开始介绍前,还有个很根本的问题需要再澄清下。就是有盆友可能会有疑问,如果自己的公司已经有非常完善的合同模板库了,平时只需要改改甲乙方、金额、日期,不也很快吗?为什么还需要一个这么麻烦的去构建一个复杂的工作流?

2.1

业务场景的特殊要求

一份“通用 NDA 模板”在面对“A 轮融资尽调”和“技术 API 对接”这两种截然不同的场景的时候,内部条款(如保密信息定义、知识产权归属)的最优写法是完全不同的。简单替换主体信息,会埋下巨大的法律风险。

后文要介绍的案例 ,是能够根据用户输入的“合作目的”,自动从知识库中调用最贴合当前场景的历史范例。换句话说,既能为融资场景生成一份定义宽泛、严格保护我方的条款;又能为技术合作场景生成一份权责对等、包含“残存信息”的条款。这种基于场景的深度定制能力,是静态模板无法比拟的。

2.2

知识库的更新问题

公司传统的模板库通常更新缓慢,依赖少数资深法务定期手工维护。但现实情况是,随着公司业务线不断丰富,会在原有的特定模板基础上,衍生出多个针对不同合作方定制签署的版本,这些衍生版本也是经过合作双方的前中后共同确认的条款内容,但又都有其特定适用场景。

基于下述条款级知识库的构建思路,每当公司完成一份高质量的新合同后,可以将其预处理后加入知识库中。这意味着 LLM 生成特定条款的能力”也在持续学习和进化,它能自动吸纳最新的、经过业务检验的条款写法,并应用到未来的合同生成中。

3

系统架构梳理

回答完上述两个问题后,这里开始正式介绍案例的实现过程。为了方便各位能快速理解,这部分先快读阅览下整体的架构思路。

3.1

第一阶段:离线知识库预处理

格式统一

首先,把原始的 Word 版合同(.docx)批量转换为易于处理的 Markdown(.md)格式。

注:这三份 NDA 合同包含了投资尽调调查、核心岗位员工、软件外包开发三个使用场景,是我在实际项目中进行必要脱敏后的参考版本。实际复现时各位也可直接用自己手头的合同,文档格式是 docx 即可。

智能拆分与富化

接着,对 Markdown 文本进行深度处理,将其自动拆分为独立的条款。同时,为每个条款标注好元数据,如“保密义务”、“知识产权”等,形成结构化的数据。

数据匿名化

最后,为确保数据安全与合规,对所有条款进行匿名化处理,将公司、人名等敏感信息替换为通用占位符。

3.2

第二阶段:dify 工作流生成

需求输入

用户在界面输入新合同的关键要素,如甲乙方信息、合作目的、有效期限等。

智能检索与草拟

系统根据需求从知识库中精确检索出最相关的条款范例,并交由 LLM 进行内容生成,确保条款既专业又贴合本次业务目标需求,这个过程会并行处理合同的各个部分。

自动组装与交付

所有条款生成完毕后,会自动将它们组装成一份格式完整的 Markdown 合同,并最终转换为标准的 Word(.docx)文档进行输出。

4

本地预处理说明

了解清楚了整体处理思路后,我们从最基础也是最重要的知识库预处理上开始介绍。这个演示项目中,整个处理流程分为三个主要步骤,由三个独立的脚本按顺序执行:

├──三份NDA参考合同/#存放原始的.docx合同文件├──三份NDA参考合同\_md/#\[自动生成\]存放转换后的.md文件├──dify_knowledge_base/#\[自动生成\]存放结构化处理后的知识库文件├──dify_knowledge_base_anonymized/#\[自动生成\]存放最终匿名化后的文件├──convert_contracts.py#脚本1:DOCX->MD├──split_contracts.py#脚本2:MD->Dify格式└──anonymize_contracts.py#脚本3:Dify格式->匿名化

4.1

格式转换

将 Word 文档(.docx)转换为 Markdown(.md)格式,便于后续的文本处理。这部分没啥好说的,也可以转换为 md 也可以考虑 txt 或者 html 格式均可。

4.2

结构化处理

简单说,就是“按条款拆分”、“为每个条款添加元数据头部”、“用---分割符连接”这三步:

按“条款”进行物理拆分

脚本会读取整个 Markdown 合同文件的内容,然后使用正则表达式来查找所有条款的标题。 查找模式:它会寻找符合 ### 第 X 条 ... 或 ## 第四条...这种格式的行(即 Markdown 的三级或二级标题,内容为条款编号)。

然后以每个条款标题作为起点,把整个文档切割成一个列表。列表中的每一项就是一个完整的条款文本块,从标题一直到下一个条款标题之前的所有内容。文档开头不带“第 X 条”的部分,则被视为“前言”。 这样,一份合同就被拆分成了类似下面这样的片段:

片段1:[合同的引言、各方信息...]片段2:[###第一条定义的全部内容...]片段3:[###第二条保密义务的全部内容...]

为每个片段添加元数据

拆分完成后,脚本会为每一个片段生成一个包含三项核心元数据的“头部信息”:

meta_doc_id: 文档 ID。这是一个唯一的标识符,用于追踪这个条款源自哪一份原始合同。例如,investment_nda_001 代表它来自第一份“投资尽调 NDA”合同。

meta_contract_type: 合同类型。直接从文件名获取,用于表明该条款所属的合同类型,如 投资尽职调查 NDA。

meta_clause_type: 条款类型。脚本会分析条款的标题(如 ### 第二条 保密义务),通过关键词(如“保密”、“知识产权”、“违约责任”)来判断并赋予一个标准化的类型。如果条款是合同开头的部分,则类型为 前言。

组合与格式化

脚本将上一步生成的“元数据头部”和“条款原文”组合在一起,形成一个完整的知识区块。一个区块的最终格式大致如下:

meta_doc_id: investment_nda_001meta_contract_type: 投资尽职调查NDAmeta_clause_type: 保密义务### 第二条 保密义务
1. 双方承认并同意,任何一方(“披露方”)向另一方(“接收方”)披露的任何与“星尘”AI模型相关的商业、技术或财务信息......(条款正文)...

使用分割符连接所有区块

脚本将所有处理好的知识区块放入一个最终的 .txt 文件中,并使用一个非常明确的分割符将它们隔开。--- (三个短横线,单独占一行) 这个分割符是特意为 Dify 这类知识库系统设计的。当 Dify 读取这个文件时,它会根据 --- 分割符自动将文件内容切分成多个独立的知识片段,并正确解析每个片段头部的元数据。

4.3

数据匿名化

扫描并替换处理后的文本中的敏感信息,如公司名称、人名、地址、身份证号等。跳过这一步,不会从技术上导致后续的模块填充失败(代码依然可以替换占位符),但它会严重影响 LLM 生成条款内容的质量和可靠性。

无匿名化的风险是,当 LLM 看到的参考内容是:“...若远见资本违反本协议,奇点未来有权...”。当让它为“星尘探索”生成新条款时,LLM 有相当大的概率会发生“事实串扰”,在生成的新条款中错误地写入“远见资本”或“奇点未来”的名字,而不是在当前任务中指定的新主体。

抛开合规性的问题,匿名化本质上是教 LLM 学习条款的“模式”(Pattern)而非“实例”(Instance)。它能更好地理解一个“保密义务”条款的通用结构,而不是仅仅记住“奇点未来”的那个特定版本。这使得它在面对全新的、多样化的需求时,表现得更加稳健和灵活。

5

并行处理实现

5.1

为什么要条款级处理

让 LLM 专注于生成一个 200 字的独立条款,远比生成 5000 字的长文要容易得多,也更容易通过 Prompt 进行精确控制。当我们为生成“违约责任”条款而专门召回 3-5 个历史合同中的“违约责任”范例时,提供给 LLM 的上下文 100%都是高相关信息。LLM 可以集中全部“注意力”来学习这些范例的专业措辞、逻辑结构和风险考量,从而生成质量极高的条款内容。

另外从模块化与可维护性的角度来说,分条款生成,也意味着整个合同被拆解成了独立的、可插拔的模块。如果测试中发现例如“知识产权”条款的生成效果不佳,则只需要去优化那一个特定的“知识产权生成”分支,而无需触动整个的工作流。这大大降低了维护成本。

5.2

知识库检索词的动态实现

Dify 的知识库检索节点本身不支持复杂的 Jinja2 模板语法,它需要一个固定的、纯文本的查询输入。因此,在“知识库检索”节点前插入一个“模板(Template)”节点,是实现动态查询(Dynamic Query)的标准且最佳的实践。

因为 Loop 节点适用于对一个列表中的每个同类项执行完全相同的操作,而案例演示的方案任务是“异构”的,每个条款生成的逻辑和参考重点都不同。所以采用并行分支,最后由一个 Code 节点统一合并是更合理的做法。

6

两个测试用例

这部分提供两个测试用例,并针对两个场景中的一些侧重点进行针对性的结果校验。

6.1

融资尽调场景

这个场景模拟创业公司向风险投资机构披露核心机密,要求最高级别的信息保护。

输入项填入内容
甲方公司名称
奇点未来(北京)科技有限公司
乙方公司名称
红杉资本中国基金
合作目的
评估 A 轮融资的技术与商业可行性
保密期限(年)
5
法律适用地点
甲方所在地
争议解决方法
向甲方所在地有管辖权的人民法院提起诉讼

定义”条款的广度

生成的“第一条 定义”应该非常宽泛,将所有可能披露的信息(技术、商业、财务、运营)都囊括在内,以提供最全面的保护。

保密义务”条款的严格性

生成的“第二条 保密义务”应该非常严格,明确限制乙方(红杉资本)只能为投资评估这唯一目的使用信息,并且需要对其团队成员的违约行为承担连带责任。

关键条款的缺失

一份对甲方有利的融资 NDA,通常不应包含“残存信息(Residuals)”条款。检查最终生成的合同中是否没有这一对投资机构有利的条款。

6.2

软件开发合作场景

这个场景模拟两家技术公司进行合作开发,信息双向流动,权利义务相对平等。

输入项
填入内容
甲方公司名称
奇点未来(北京)科技有限公司
乙方公司名称
光速代码(深圳)有限公司
合作目的
合作开发“幻影”AI 图像生成引擎的 API 接口
保密期限(年)
3
法律适用地点
本协议签署地北京
争议解决方法
提交北京仲裁委员会进行仲裁

知识产权条款的专业性

这是此场景的核心。生成的“第三条 知识产权”应该非常专业,明确约定最终开发成果的知识产权归属于甲方(奇点未来),但可能会包含关于乙方“背景技术”权利保留的条款。

关键条款的出现

与用例一相反,技术合作 NDA 中通常会包含“残存信息(Residuals)”条款,以平衡双方开发者在合作中无意获取的通用技能。检查最终生成的合同中是否恰当地包含了这一条款。

争议解决方式的差异

检查最终生成的“第六条”是否正确地将争议解决方法设定为“仲裁”(与用例一的“诉讼”形成对比),这在商业合作中非常常见。

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ