支持私有化部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


DupDub 插件登陆 Dify Marketplace,带来强大的音频 AI 能力

发布日期:2025-04-14 16:29:57 浏览次数: 1555 作者:Dify
推荐语

DupDub音频AI插件登陆Dify市场,助力AI应用创新加速

核心内容:
1. DupDub音频AI插件集成Dify平台,提供语音转写、语音克隆等先进功能
2. Dify Marketplace生态快速发展,汇聚多种插件类型,加速AI解决方案创新
3. DupDub插件在Dify工作流中轻松编排自动化,大幅提升音频处理效率

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家

我们很高兴地宣布,DupDub 的一系列强大音频 AI 插件现已上架 dify Marketplace。通过此次集成,用户可在 Dify 平台中直接使用先进功能,如语音转写、语音克隆、说话人识别以及文本转语音合成等,帮助大家构建更多元、更具可及性和互动性的 AI 应用。

Dify Marketplace:推动 AI 创新的新引擎

自 Dify v1.0.0 发布以来,我们的 Marketplace 生态系统正在快速成长,汇聚了多种插件类型,包括模型(Models)、工具(Tools)、Agent 策略(Agent Strategies)、扩展(Extensions)及插件集(Bundles)。这些插件基于 Dify 开源的 AI 应用开发平台,为用户加速创新、快速扩展 AI 解决方案提供了更多可能。其模块化设计使得像 DupDub 这样的前沿工具得以轻松接入,进一步丰富了 Dify 社区的多模态能力。

DupDub 工具为 Dify 带来先进音频处理

借助 DupDub 插件,用户可将高阶的音频处理功能加入 Dify 的工作流程中。以下是目前可用的主要功能:
  • 语音转写(TranscribeSpeech):将音视频内容精准地转换成文本,用于内容分析、字幕生成、数据处理,并提升可及性。
  • 语音克隆(Voice Cloning):从特定人的语音样本生成个性化语音,适用于品牌音色、个性化助手或多语种的内容配音等。

  • 说话人识别(Speaker Identification):借助 Get Speaker ID 工具来分辨音频内容中的不同说话人。非常适用于会议记录、客服通话或任何多人参与的音频场景。
  • 文本转语音(Text-to-Speech,TTS)合成:使用 Speech Synthesis 工具将文本转换为自然的语音输出,并可通过选择不同的标准或克隆声音、调整语速和音调来打造高质量的音频内容。

在 Dify 可视化工作流的帮助下,这些功能都能轻松编排并自动化处理,大幅减少人工干预,提升效率。

如何在 Dify 中使用 DupDub 工具

以下简要介绍如何在 Dify 中使用 DupDub 的各项工具。

TranscribeSpeech 工具

让工作流程具备语音转写功能,轻松把音视频转换为文本。
  1. 添加工具至工作流程:
  • 在左侧面板点击 “Orchestrate”
  • 点选 “Tools”,搜索 “TranscribeSpeech”(归属 dupdup 插件)
  • 拖拽 “TranscribeSpeech” 工具至工作流程图中

  1. 配置 TranscribeSpeech 工具:
  • 将 START 节点与 TranscribeSpeech 节点连起来
  • 填写必需的输入变量:
    • Duration(必填):输入视频/音频的时长
    • URL(必填):提供视频/音频文件的链接
    • Language(必填):指定内容语言(如 en 表示英文)
  1. 其他设置:
  • Retry on Failure(重试):可在出现错误时自动重试
  • Error Handling(异常处理):定义遇到错误时的处理方式
  1. 运行 & 发布:
  • 点击 Run 进行测试运行
  • 测试成功后,点击 Publish 即可完成部署

Voice Cloning 工具

为工作流程增添强大的语音克隆功能,实现精确且可定制化的音色复制。
  1. 添加工具至工作流程:
  • 在左侧面板点击 “Orchestrate”
  • 在 “Tools” 中搜索 “Voice Cloning”(归属 Dupdub 插件)
  • 将 “Voice Cloning” 工具拖拽到工作流程中
  1. 配置 Voice Cloning 工具:
  • 将 START 节点与 Voice Cloning 节点连起来
  • 填写必需的输入变量:
    • Speaker Name(必填):输入需要克隆的讲话者名称
    • URL(必填):提供对应的语音样本链接(支持 WAV、MP3、MP4 等格式)
    • Language(必填):指定语音样本使用的语言(如英文 en、中文 zh)
    • Gender(必填):说明讲话者性别(MALE 或 FEMALE)
    • Age(必填):说明讲话者的大致年龄段(Children、Youth、Adults、Seniors)
  1. 其他设置:
  • Retry on Failure(重试):在出现错误时可自动重试
  • Error Handling(异常处理):选择出现错误时的处理方式
  1. 运行 & 发布:
  • 点击 Run 运行并开始语音克隆
  • 测试成功后,点击 Publish 即可完成部署

Get Speaker ID 工具

借助此工具可识别音频中的说话人身份,为更高级的音频处理与个性化提供基础。
  1. 添加工具至工作流程:
  • 在左侧面板点击 “Orchestrate”
  • 在 “Tools” 中搜索 “Get Speaker ID”(归属 Dupdub 插件)
  • 将 “Get Speaker ID” 工具拖拽到工作流程图中
  1. 配置 Get Speaker ID 工具:
  • 将 START 节点与 Get Speaker ID 节点连起来
  1. 其他设置:
  • Retry on Failure(重试):在出现错误时自动重试
  • Error Handling(异常处理):定义遇到错误时的处理方式
  1. 运行 & 发布:
  • 点击 Run 执行流程并获取说话人 ID
  • 测试成功后,点击 Publish 完成部署

使用此流程后,就能在音频处理中区别不同说话者,使输出更精确、个性化。

Speech Synthesis 工具

将文本转语音功能快速集成到工作流程,为用户生成高品质的定制化音频。
  1. 添加工具至工作流程:
  • 在左侧面板点击 “Orchestrate”
  • 在 “Tools” 中搜索 “Speech Synthesis”(归属 Dupdub 插件)
  • 拖拽 “Speech Synthesis” 工具到工作流程中
  1. 配置 Speech Synthesis 工具:

  • 将 START 节点与 Speech Synthesis 节点连起来
  • 填写必需的输入变量:
    • Speaker Name(必填):指定合成语音的讲话者名称
    • Speaker(必填):提供要使用的讲话者标识
    • Speed(可选):调整语速,默认正常速度(1.0)
    • Pitch(可选):调整音调,默认标准音调(0)
    • Text(必填):输入需要转语音的文本内容
  1. 其他设置:
  • Retry on Failure(重试):在出现错误时是否自动重试
  • Error Handling(异常处理):指定错误管理方式
  1. 运行 & 发布:
  • 点击 Run 执行流程并将文本合成为语音
  • 测试成功后,点击 Publish 即可完成部署

应用场景示例

有了 DupDub 工具,Dify 用户能实现以下创意场景:
  • 多语言内容创作助手:先用 TranscribeSpeech 为视频生成字幕,然后通过 Voice Cloning 和 Speech Synthesis 在 Dify 的工作流程里同步生成多语言自然配音,大幅提升内容的传播力。
  • 增强的在线教育平台:使用 TranscribeSpeech 自动转写课程录音并生成可检索的笔记;借助 Speech Synthesis 生成可定制的音频课程;还可通过语音克隆技术为学生提供个性化的导师音频反馈。
  • 自动化企业培训与数据分析:将静态培训资料转化为生动音频内容,借助 Speech Synthesis 打造更加丰富的培训形式;使用 TranscribeSpeech 提升多语言可及性;利用 Get Speaker ID 分析团队讨论或客户通话,对语音进行深入挖掘和管理。

关于 DupDub

DupDub 是一个尖端的 AI 内容创作与本地化平台,专注于文本转语音(TTS)、语音克隆与视频配音。DupDub 帮助创作者、教育者、营销人员及企业轻松生成自然流畅的高质量语音内容,并支持快速多语种转化。

平台操作简单易上手,内置超过 700+ 个逼真的 AI 合成声音,覆盖 90+ 种语言和口音,不论是制作 YouTube 视频、在线课程、播客,还是宣传素材,都能在数分钟内完成专业级语音生成。DupDub 让你省时省力,降低内容制作成本,并用真实的、本地化的语音体验吸引全球观众。

关于 Dify.AI

Dify.AI 是一个帮助开发者更简单、快速地构建 AI 应用的开源平台。我们相信,通过灵活的插件机制、提示词编排、RAG、Workflow、应用日志监测等特性,可以大幅降低开发者的上手门槛,并在最短时间内完成从概念到大规模生产的飞跃。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询