我要投稿

微软Azure推出实时互动加文本转语音数字人AI工具

发布日期：2024-07-03 03:16:29 浏览次数： 3000 作者：AI面

大家周末好，今天我又要给大家介绍一个数字人项目。

这次是由微软带来的。这个AI数字人有点像之前微软发布的数字人项目。具体可以点击下面这个链接看看。

昨天，微软Azure悄咪咪地上线了一个新功能 - 文本转语音数字人。

听起来很高大上，是不是？其实就是一个能说会动的AI小人儿。

下面这个演示视频是我在微软Azure网站上测试的演示。不过很遗憾的是，他们很鸡贼，因为我不是Azure的开发者，没付过钱，所以只给了一个女的演示给大家玩，然后下面的文字其实也是固定的，改不了自己想要的字。

我一开始想着在网页源代码上去改下文字，看看它会不会认，不过看完生成出来的数字人说的话后，我发现我还是太年轻了。微软技术那么强大，人家怎么可能会犯这种小错误。

经常看我的公众号的朋友们，相信大家现在应该对数字人已经不陌生了，况且我最近也写了不少类似的数字人项目推荐给大家。

有英伟达的

有搞出海项目的公司搞的开源数字人。

也有网友自己练丹搞出来的数字人

然后也有阿里巴巴搞的数字人

整体来说，这次微软放出来的这个数字人项目还是不错的。可能有人会说："你每次都说不错，但是我们小白使用起来就很麻烦。"

但是没办法，数字人这玩意本身就有点技术含量，麻烦的东西才有可操作性。如果是想用傻瓜化的东西，可以直接用剪映搞。

不过剪映那玩意太假了。

微软这个数字人它不仅能把你写的文字变成语音，还能配上一个还算栩栩如生的数字人形象。为什么说"还算"？我这是用良心说话，毕竟看着还是有一点生硬。

比如下面这个我生成的视频，大家看看。虽然它能说话、眨眼睛、动嘴巴，看起来像真人一样，但是整体看着还是有点僵硬。

另外微软这个数字人的一大特色是，它可以支持集成 ChatGPT-4o。

也就是说，你搭建好数字人模型和微软 Azure 提供的 TTS 后，你可以直接跟这个数字人聊天，它能实时回答你的问题，比如下面?这个视频。

不过可能有兄弟会说，搭建这个服务会不会很复杂？大家不用担心，微软很贴心地提供了示例代码，以帮助大家集成文本转语音数字人GPT-4o 模型。

同时在说话的时候，她还能做各种表情，就像我上面说的眨眼、动嘴巴这些都不在话下。

虽然微软的语音技术现在可以做到有感情色彩，不过肯定没法跟真人说话一样。

写到这里，我忍不住就想到了很多大家可以用到的应用场景：

在线客服： 有了会动会说话的 AI 客服，网站的客户也不用看冷冰冰的文字回复了，感觉亲切多了。
虚拟导游： 兄弟们可以针对旅游景点做一个项目，做好这种定制服务卖给旅游景点。这样游客去景点旅游，咱们做的 AI 导游就可以 24 小时在线，游客想问啥问啥。
数字讲解员： 前段时间我有个朋友说他要做无人售卖柜，我觉得他可以直接接入微软这个数字人，然后让它充当 AI 讲解员，这样就不用担心人手不够。

这个项目简直是太有意思了！说实话我是迫不及待想试试这个新项目。

另外，这个项目还有很多内容，我就不一样一样地讲了。后面我直接给大家总结了几点，大家慢慢看：

高质量视频输出： 支持 1920×1080 的高清分辨率，每秒 25 帧，画面流畅清晰。
自定义虚拟形象： 嫌弃预设的不够个性？没问题！只要录制10分钟的视频，就能创建属于你自己的专属数字人，还能自定义背景。下面这个视频就是我用Midjourney生成的背景图片上传上去，然后它们给我生成的。