我要投稿

这两个牛逼哄哄的 AI 项目开源了！

发布日期：2024-06-03 13:02:22 浏览次数： 3182

作者：逛逛GitHub

微信搜一搜，关注“逛逛GitHub”

01

ChatTTS：革新对话式文本转语音技术

ChatTTS 是由 2noise 团队开发的一款专为对话场景设计的文本转语音（TTS）模型。它不仅支持英文和中文两种语言，而且经过了超过 10 万小时的中英文数据训练，表现出色。

ChatTTS的亮点在于其对话式TTS的优化，它能够生成自然流畅的语音并支持多说话人。

此外，模型还能够预测和控制细粒度的韵律特征，如笑声、停顿和插入词等，提供了更好的韵律表现。

它在韵律方面超越了大部分开源TTS模型，并提供了预训练模型以支持进一步的研究。

开源地址：https://github.com/2noise/ChatTTS

代码示例

ChatTTS 提供了基本用法和进阶用法的代码示例，允许用户快速开始使用模型，并进行更精细的控制。

基本用法示例

import ChatTTS from IPython.display 、
import Audio chat = ChatTTS.Chat() 

chat.load_models(compile=False) # 设置为True以获得更快速度 
texts = ["在这里输入你的文本",] 
wavs = chat.infer(texts, use_decoder=True) 
torchaudio.save("output1.wav", torch.from_numpy(wavs[0]), 24000)

如下是一个样例：

inputs_cn = """
chat T T S 是一款强大的对话式文本转语音模型。它有中英混读和多说话人的能力。
chat T T S 不仅能够生成自然流畅的语音，还能控制[laugh]笑声啊[laugh]，
停顿啊[uv_break]语气词啊等副语言现象[uv_break]。这个韵律超越了许多开源模型[uv_break]。
请注意，chat T T S 的使用应遵守法律和伦理准则，避免滥用的安全风险。[uv_break]'
""".replace('\n', '')

params_refine_text = {
  'prompt': '[oral_2][laugh_0][break_4]'
} 
audio_array_cn = chat.infer(inputs_cn, params_refine_text=params_refine_text)
# audio_array_en = chat.infer(inputs_en, params_refine_text=params_refine_text)

torchaudio.save("output3.wav", torch.from_numpy(audio_array_cn[0]), 24000)

02

腾讯AI实验室推出：一键生成逼真口型视频

V-Express 是由腾讯 AI 实验室（Tencent AI Lab）开发的一项创新技术，旨在通过控制一张参考图片、一段音频和一系列 V-Kps（视觉关键点）图像来生成逼真的口型视频。

这项技术通过渐进式训练和条件性丢弃（Conditional Dropout）的方法，平衡了不同控制信号，使得生成的视频能够同时考虑姿势、输入图像和音频。

比如说你只有一张泰勒斯威夫特的静态照片，只需要再给模型输入一段音频、视频关键点，这个模型就能生成逼真的口型视频。会将音频中的内容读出来。

上传个图片

生成的逼真口型视频

V-Express 的核心优势在于其能够处理控制信号的强弱差异，尤其是音频信号，这些信号在生成过程中往往被其他更强的信号（如姿势和原始图像）所掩盖。

通过一系列渐进式的丢弃操作，V-Express逐渐启用了对弱条件的有效控制，从而实现了同时考虑姿势、输入图像和音频的生成能力。

开源地址：https://github.com/tencent-ailab/V-Express

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-03-12

OpenAI发布GPT-5.4金融套件：顶级数据库首次向普通用户开放

2026-03-12

在树莓派 Zero 上跑一只轻量级的 ZeroClaw 小龙虾

2026-03-11

从“暴力烧Token”到“系统工程”：OpenAI与华为的两条 AI 编程路径

2026-03-10

我们做了比你更懂 Java 的 AI-Agent -- Arthas Agent

2026-03-10

RLC Pro：AI 时代的企业级 Linux

2026-03-10

我搭了一套国产的小龙虾方案，成本可控，还能 24小时自动干活

2026-03-09

粮厂研究员Will | 小米miclaw发布：谈谈为什么豆包手机没有撑过72小时？

2026-03-08

ChatGPT 5.4 与 OpenClaw 驱动下的 SaaS 市场重构与未来演进

联系获取

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Pencil：设计和写代码，以后就全让AI干了

2026-01-24

独家实录｜唐杰、杨植麟、林俊旸、姚顺雨...All Star 对话上，大家聊了啥？

2026-01-10

2026 开年 AI 工具推荐，让你新的一年效率起飞！（建议收藏）

2026-01-01

从0到1玩转Clawdbot：我花了40小时，把这些坑都踩完了

2026-01-26

Claude赢麻了？OpenAI Codex正式支持Skills，GitHub连夜上车！

2025-12-21

终于！Gemini CLI支持Agent Skills，一键搬运Claude Code的“绝招”

2026-01-09

Claude Code Skills 国内实践全指南：从安装部署到高阶开发

2026-01-09

谷歌没想到：Antigravity 竟成了 Claude Code 的“免费充电宝”？

2025-12-30

我装了 9 个 Skill，终于看懂了 Google Antigravity 的野心

2026-01-21

GitHub 上 10 个令人惊艳的 Agent 开发平台，太顶了。

2026-01-06

大家都在问

粮厂研究员Will | 小米miclaw发布：谈谈为什么豆包手机没有撑过72小时？

2026-03-09

如果微信全面 AI 化了，会有什么后果？

2026-03-08

马斯克大赞阿里 AI，9B 参数硬刚 120B，海外网友：这叫小模型？

2026-03-03

Claude Code 的记忆机制：从CLAUDE.md到Auto Memory，它到底记住了什么？

2026-03-01

AGENTS.md 真的能帮助编码智能体吗？

2026-02-27

谷歌 Nano Banana 2 凌晨突袭！生图速度飙升，价格直接腰斩，Pro 功能竟然也免费了？

2026-02-27

Claude Code Security 的发布，会如何重塑传统网络安全企业？

2026-02-26

当软件不值钱了以后，最稀缺的资源是什么？

2026-02-24

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB Palantir Glean Openclaw

应聘简历请发送至： ceo@53ai.com

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部