我要投稿

DupDub 插件登陆 Dify Marketplace，带来强大的音频 AI 能力

发布日期：2025-04-14 16:29:57 浏览次数： 1555 作者：Dify

我们很高兴地宣布，DupDub 的一系列强大音频 AI 插件现已上架 dify Marketplace。通过此次集成，用户可在 Dify 平台中直接使用先进功能，如语音转写、语音克隆、说话人识别以及文本转语音合成等，帮助大家构建更多元、更具可及性和互动性的 AI 应用。

Dify Marketplace：推动 AI 创新的新引擎

自 Dify v1.0.0 发布以来，我们的 Marketplace 生态系统正在快速成长，汇聚了多种插件类型，包括模型（Models）、工具（Tools）、Agent 策略（Agent Strategies）、扩展（Extensions）及插件集（Bundles）。这些插件基于 Dify 开源的 AI 应用开发平台，为用户加速创新、快速扩展 AI 解决方案提供了更多可能。其模块化设计使得像 DupDub 这样的前沿工具得以轻松接入，进一步丰富了 Dify 社区的多模态能力。

DupDub 工具为 Dify 带来先进音频处理

借助 DupDub 插件，用户可将高阶的音频处理功能加入 Dify 的工作流程中。以下是目前可用的主要功能：

语音转写（TranscribeSpeech）：将音视频内容精准地转换成文本，用于内容分析、字幕生成、数据处理，并提升可及性。
语音克隆（Voice Cloning）：从特定人的语音样本生成个性化语音，适用于品牌音色、个性化助手或多语种的内容配音等。
说话人识别（Speaker Identification）：借助 Get Speaker ID 工具来分辨音频内容中的不同说话人。非常适用于会议记录、客服通话或任何多人参与的音频场景。
文本转语音（Text-to-Speech，TTS）合成：使用 Speech Synthesis 工具将文本转换为自然的语音输出，并可通过选择不同的标准或克隆声音、调整语速和音调来打造高质量的音频内容。

在 Dify 可视化工作流的帮助下，这些功能都能轻松编排并自动化处理，大幅减少人工干预，提升效率。

如何在 Dify 中使用 DupDub 工具

以下简要介绍如何在 Dify 中使用 DupDub 的各项工具。

TranscribeSpeech 工具

让工作流程具备语音转写功能，轻松把音视频转换为文本。

添加工具至工作流程：

在左侧面板点击 “Orchestrate”
点选 “Tools”，搜索 “TranscribeSpeech”（归属 dupdup 插件）
拖拽 “TranscribeSpeech” 工具至工作流程图中

配置 TranscribeSpeech 工具：

将 START 节点与 TranscribeSpeech 节点连起来
填写必需的输入变量：

Duration（必填）：输入视频/音频的时长
URL（必填）：提供视频/音频文件的链接
Language（必填）：指定内容语言（如 en 表示英文）

其他设置：

Retry on Failure（重试）：可在出现错误时自动重试
Error Handling（异常处理）：定义遇到错误时的处理方式

运行 & 发布：

点击 Run 进行测试运行
测试成功后，点击 Publish 即可完成部署

Voice Cloning 工具

为工作流程增添强大的语音克隆功能，实现精确且可定制化的音色复制。

添加工具至工作流程：

在左侧面板点击 “Orchestrate”
在 “Tools” 中搜索 “Voice Cloning”（归属 Dupdub 插件）
将 “Voice Cloning” 工具拖拽到工作流程中

配置 Voice Cloning 工具：

将 START 节点与 Voice Cloning 节点连起来
填写必需的输入变量：

Speaker Name（必填）：输入需要克隆的讲话者名称
URL（必填）：提供对应的语音样本链接（支持 WAV、MP3、MP4 等格式）
Language（必填）：指定语音样本使用的语言（如英文 en、中文 zh）
Gender（必填）：说明讲话者性别（MALE 或 FEMALE）
Age（必填）：说明讲话者的大致年龄段（Children、Youth、Adults、Seniors）

其他设置：

Retry on Failure（重试）：在出现错误时可自动重试
Error Handling（异常处理）：选择出现错误时的处理方式

运行 & 发布：

点击 Run 运行并开始语音克隆
测试成功后，点击 Publish 即可完成部署

Get Speaker ID 工具

借助此工具可识别音频中的说话人身份，为更高级的音频处理与个性化提供基础。

添加工具至工作流程：

在左侧面板点击 “Orchestrate”
在 “Tools” 中搜索 “Get Speaker ID”（归属 Dupdub 插件）
将 “Get Speaker ID” 工具拖拽到工作流程图中

配置 Get Speaker ID 工具：

将 START 节点与 Get Speaker ID 节点连起来

其他设置：

Retry on Failure（重试）：在出现错误时自动重试
Error Handling（异常处理）：定义遇到错误时的处理方式

运行 & 发布：

点击 Run 执行流程并获取说话人 ID
测试成功后，点击 Publish 完成部署

使用此流程后，就能在音频处理中区别不同说话者，使输出更精确、个性化。

Speech Synthesis 工具

将文本转语音功能快速集成到工作流程，为用户生成高品质的定制化音频。

添加工具至工作流程：

在左侧面板点击 “Orchestrate”
在 “Tools” 中搜索 “Speech Synthesis”（归属 Dupdub 插件）
拖拽 “Speech Synthesis” 工具到工作流程中

配置 Speech Synthesis 工具：

将 START 节点与 Speech Synthesis 节点连起来
填写必需的输入变量：

Speaker Name（必填）：指定合成语音的讲话者名称
Speaker（必填）：提供要使用的讲话者标识
Speed（可选）：调整语速，默认正常速度（1.0）
Pitch（可选）：调整音调，默认标准音调（0）
Text（必填）：输入需要转语音的文本内容

其他设置：

Retry on Failure（重试）：在出现错误时是否自动重试
Error Handling（异常处理）：指定错误管理方式

运行 & 发布：

点击 Run 执行流程并将文本合成为语音
测试成功后，点击 Publish 即可完成部署

应用场景示例

有了 DupDub 工具，Dify 用户能实现以下创意场景：

多语言内容创作助手：先用 TranscribeSpeech 为视频生成字幕，然后通过 Voice Cloning 和 Speech Synthesis 在 Dify 的工作流程里同步生成多语言自然配音，大幅提升内容的传播力。
增强的在线教育平台：使用 TranscribeSpeech 自动转写课程录音并生成可检索的笔记；借助 Speech Synthesis 生成可定制的音频课程；还可通过语音克隆技术为学生提供个性化的导师音频反馈。
自动化企业培训与数据分析：将静态培训资料转化为生动音频内容，借助 Speech Synthesis 打造更加丰富的培训形式；使用 TranscribeSpeech 提升多语言可及性；利用 Get Speaker ID 分析团队讨论或客户通话，对语音进行深入挖掘和管理。