AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


微软Azure推出实时互动加文本转语音数字人AI工具
发布日期:2024-07-03 03:16:29 浏览次数: 2346 来源:AI面


大家周末好,今天我又要给大家介绍一个数字人项目。

这次是由微软带来的。这个AI数字人有点像之前微软发布的数字人项目。具体可以点击下面这个链接看看。

微软发布了VASA-1,一张图生成视频

昨天,微软Azure悄咪咪地上线了一个新功能 - 文本转语音数字人。

听起来很高大上,是不是?其实就是一个能说会动的AI小人儿。


下面这个演示视频是我在微软Azure网站上测试的演示。不过很遗憾的是,他们很鸡贼,因为我不是Azure的开发者,没付过钱,所以只给了一个女的演示给大家玩,然后下面的文字其实也是固定的,改不了自己想要的字


我一开始想着在网页源代码上去改下文字,看看它会不会认,不过看完生成出来的数字人说的话后,我发现我还是太年轻了。微软技术那么强大,人家怎么可能会犯这种小错误。


经常看我的公众号的朋友们,相信大家现在应该对数字人已经不陌生了,况且我最近也写了不少类似的数字人项目推荐给大家。

有英伟达的

NVIDIA发布数字人 AI 生成技术:NVIDIA ACE

有搞出海项目的公司搞的开源数字人。

开源的数字人AI女友,妈妈,我不要做舔狗了!

也有网友自己练丹搞出来的数字人

Streamer-Sales:这个AI直播数字人模型太牛了!自动卖货还能秒回问题

然后也有阿里巴巴搞的数字人

阿里Motionshop:10分钟让你秒变动画主角的 AI 工具

整体来说,这次微软放出来的这个数字人项目还是不错的。可能有人会说:"你每次都说不错,但是我们小白使用起来就很麻烦。"


但是没办法,数字人这玩意本身就有点技术含量,麻烦的东西才有可操作性。如果是想用傻瓜化的东西,可以直接用剪映搞。


不过剪映那玩意太假了。


微软这个数字人它不仅能把你写的文字变成语音,还能配上一个还算栩栩如生的数字人形象。为什么说"还算"?我这是用良心说话,毕竟看着还是有一点生硬。

比如下面这个我生成的视频,大家看看。虽然它能说话、眨眼睛、动嘴巴,看起来像真人一样,但是整体看着还是有点僵硬。

另外微软这个数字人的一大特色是,它可以支持集成 ChatGPT-4o。

也就是说,你搭建好数字人模型和微软 Azure 提供的 TTS 后,你可以直接跟这个数字人聊天,它能实时回答你的问题,比如下面?这个视频。

不过可能有兄弟会说,搭建这个服务会不会很复杂?大家不用担心,微软很贴心地提供了示例代码,以帮助大家集成文本转语音数字人GPT-4o 模型。

同时在说话的时候,她还能做各种表情,就像我上面说的眨眼、动嘴巴这些都不在话下。

虽然微软的语音技术现在可以做到有感情色彩,不过肯定没法跟真人说话一样

写到这里,我忍不住就想到了很多大家可以用到的应用场景:

  1. 在线客服: 有了会动会说话的 AI 客服,网站的客户也不用看冷冰冰的文字回复了,感觉亲切多了。

  2. 虚拟导游: 兄弟们可以针对旅游景点做一个项目,做好这种定制服务卖给旅游景点。这样游客去景点旅游,咱们做的 AI 导游就可以 24 小时在线,游客想问啥问啥。

  3. 数字讲解员: 前段时间我有个朋友说他要做无人售卖柜,我觉得他可以直接接入微软这个数字人,然后让它充当 AI 讲解员,这样就不用担心人手不够。

这个项目简直是太有意思了!说实话我是迫不及待想试试这个新项目。

另外,这个项目还有很多内容,我就不一样一样地讲了。后面我直接给大家总结了几点,大家慢慢看:

  1. 自然声音视频: 把文字变成自然的语音,再配上会动的数字人视频。

  2. 预生成虚拟形象: 有一堆现成的虚拟形象可以选,想要什么样的都有。

  1. 多语言支持: 支持英语、中文、日语语等多种语言。
  1. 高质量视频输出: 支持 1920×1080 的高清分辨率,每秒 25 帧,画面流畅清晰。

  2. 自定义虚拟形象: 嫌弃预设的不够个性?没问题!只要录制10分钟的视频,就能创建属于你自己的专属数字人,还能自定义背景。下面这个视频就是我用Midjourney生成的背景图片上传上去,然后它们给我生成的。

  1. 实时互动: 在 Speech Studio 里有实时聊天工具,可以跟数字人实时对话。

  2. 无代码创建: 不会写代码?不要紧!Speech Studio 提供了傻瓜式的内容创建工具。

  3. 大语言模型集成: 可以直接接入 GPT-4o 等大模型,让对话更智能。

看完这些功能,我只想说:微软,你不是微软,你是巨硬,你把我们没想到和想到的东西都做好了,简直太贴心了?!

最后要说的是,虽然这个AI数字人已经很厉害了,但目前语音TTS还是用的微软自己的,尽管微软提供超过500种神经语音。

我在想,如果以后能让用户克隆自己的语音,那岂不是更酷?比如,我可以用自己的声音创建一个数字分身,24小时在线回答粉丝问题,那该多好啊!



53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询