|

我们很高兴地宣布,DupDub 的一系列强大音频 AI 插件现已上架 dify Marketplace。通过此次集成,用户可在 Dify 平台中直接使用先进功能,如语音转写、语音克隆、说话人识别以及文本转语音合成等,帮助大家构建更多元、更具可及性和互动性的 AI 应用。 Dify Marketplace:推动 AI 创新的新引擎自 Dify v1.0.0 发布以来,我们的 Marketplace 生态系统正在快速成长,汇聚了多种插件类型,包括模型(Models)、工具(Tools)、Agent 策略(Agent Strategies)、扩展(Extensions)及插件集(Bundles)。这些插件基于 Dify 开源的 AI 应用开发平台,为用户加速创新、快速扩展 AI 解决方案提供了更多可能。其模块化设计使得像 DupDub 这样的前沿工具得以轻松接入,进一步丰富了 Dify 社区的多模态能力。 
DupDub 工具为 Dify 带来先进音频处理借助 DupDub 插件,用户可将高阶的音频处理功能加入 Dify 的工作流程中。以下是目前可用的主要功能:在 Dify 可视化工作流的帮助下,这些功能都能轻松编排并自动化处理,大幅减少人工干预,提升效率。 
如何在 Dify 中使用 DupDub 工具以下简要介绍如何在 Dify 中使用 DupDub 的各项工具。 TranscribeSpeech 工具让工作流程具备语音转写功能,轻松把音视频转换为文本。
- 点选 “Tools”,搜索 “TranscribeSpeech”(归属 dupdup 插件)
- 拖拽 “TranscribeSpeech” 工具至工作流程图中

- 将 START 节点与 TranscribeSpeech 节点连起来
- Language(必填):指定内容语言(如 en 表示英文)
- Retry on Failure(重试):可在出现错误时自动重试
- Error Handling(异常处理):定义遇到错误时的处理方式
Voice Cloning 工具为工作流程增添强大的语音克隆功能,实现精确且可定制化的音色复制。
- 在 “Tools” 中搜索 “Voice Cloning”(归属 Dupdub 插件)
- 将 “Voice Cloning” 工具拖拽到工作流程中
- 将 START 节点与 Voice Cloning 节点连起来
- Speaker Name(必填):输入需要克隆的讲话者名称
- URL(必填):提供对应的语音样本链接(支持 WAV、MP3、MP4 等格式)
- Language(必填):指定语音样本使用的语言(如英文 en、中文 zh)
- Gender(必填):说明讲话者性别(MALE 或 FEMALE)
- Age(必填):说明讲话者的大致年龄段(Children、Youth、Adults、Seniors)
- Retry on Failure(重试):在出现错误时可自动重试
- Error Handling(异常处理):选择出现错误时的处理方式
Get Speaker ID 工具借助此工具可识别音频中的说话人身份,为更高级的音频处理与个性化提供基础。
- 在 “Tools” 中搜索 “Get Speaker ID”(归属 Dupdub 插件)
- 将 “Get Speaker ID” 工具拖拽到工作流程图中
- 将 START 节点与 Get Speaker ID 节点连起来
- Retry on Failure(重试):在出现错误时自动重试
- Error Handling(异常处理):定义遇到错误时的处理方式
使用此流程后,就能在音频处理中区别不同说话者,使输出更精确、个性化。 Speech Synthesis 工具将文本转语音功能快速集成到工作流程,为用户生成高品质的定制化音频。
- 在 “Tools” 中搜索 “Speech Synthesis”(归属 Dupdub 插件)
- 拖拽 “Speech Synthesis” 工具到工作流程中
配置 Speech Synthesis 工具:
- 将 START 节点与 Speech Synthesis 节点连起来
- Speaker Name(必填):指定合成语音的讲话者名称
- Speed(可选):调整语速,默认正常速度(1.0)
- Retry on Failure(重试):在出现错误时是否自动重试
- Error Handling(异常处理):指定错误管理方式

应用场景示例有了 DupDub 工具,Dify 用户能实现以下创意场景:- 多语言内容创作助手:先用 TranscribeSpeech 为视频生成字幕,然后通过 Voice Cloning 和 Speech Synthesis 在 Dify 的工作流程里同步生成多语言自然配音,大幅提升内容的传播力。
- 增强的在线教育平台:使用 TranscribeSpeech 自动转写课程录音并生成可检索的笔记;借助 Speech Synthesis 生成可定制的音频课程;还可通过语音克隆技术为学生提供个性化的导师音频反馈。
- 自动化企业培训与数据分析:将静态培训资料转化为生动音频内容,借助 Speech Synthesis 打造更加丰富的培训形式;使用 TranscribeSpeech 提升多语言可及性;利用 Get Speaker ID 分析团队讨论或客户通话,对语音进行深入挖掘和管理。
关于 DupDubDupDub 是一个尖端的 AI 内容创作与本地化平台,专注于文本转语音(TTS)、语音克隆与视频配音。DupDub 帮助创作者、教育者、营销人员及企业轻松生成自然流畅的高质量语音内容,并支持快速多语种转化。 平台操作简单易上手,内置超过 700+ 个逼真的 AI 合成声音,覆盖 90+ 种语言和口音,不论是制作 YouTube 视频、在线课程、播客,还是宣传素材,都能在数分钟内完成专业级语音生成。DupDub 让你省时省力,降低内容制作成本,并用真实的、本地化的语音体验吸引全球观众。 关于 Dify.AIDify.AI 是一个帮助开发者更简单、快速地构建 AI 应用的开源平台。我们相信,通过灵活的插件机制、提示词编排、RAG、Workflow、应用日志监测等特性,可以大幅降低开发者的上手门槛,并在最短时间内完成从概念到大规模生产的飞跃。 |