微信扫码
与创始人交个朋友
我要投稿
大家周末好,今天我又要给大家介绍一个数字人项目。
这次是由微软带来的。这个AI数字人有点像之前微软发布的数字人项目。具体可以点击下面这个链接看看。
昨天,微软Azure悄咪咪地上线了一个新功能 - 文本转语音数字人。
听起来很高大上,是不是?其实就是一个能说会动的AI小人儿。
下面这个演示视频是我在微软Azure网站上测试的演示。不过很遗憾的是,他们很鸡贼,因为我不是Azure的开发者,没付过钱,所以只给了一个女的演示给大家玩,然后下面的文字其实也是固定的,改不了自己想要的字。
我一开始想着在网页源代码上去改下文字,看看它会不会认,不过看完生成出来的数字人说的话后,我发现我还是太年轻了。微软技术那么强大,人家怎么可能会犯这种小错误。
经常看我的公众号的朋友们,相信大家现在应该对数字人已经不陌生了,况且我最近也写了不少类似的数字人项目推荐给大家。
有英伟达的
NVIDIA发布数字人 AI 生成技术:NVIDIA ACE
有搞出海项目的公司搞的开源数字人。
也有网友自己练丹搞出来的数字人
Streamer-Sales:这个AI直播数字人模型太牛了!自动卖货还能秒回问题
然后也有阿里巴巴搞的数字人
整体来说,这次微软放出来的这个数字人项目还是不错的。可能有人会说:"你每次都说不错,但是我们小白使用起来就很麻烦。"
但是没办法,数字人这玩意本身就有点技术含量,麻烦的东西才有可操作性。如果是想用傻瓜化的东西,可以直接用剪映搞。
不过剪映那玩意太假了。
微软这个数字人它不仅能把你写的文字变成语音,还能配上一个还算栩栩如生的数字人形象。为什么说"还算"?我这是用良心说话,毕竟看着还是有一点生硬。
比如下面这个我生成的视频,大家看看。虽然它能说话、眨眼睛、动嘴巴,看起来像真人一样,但是整体看着还是有点僵硬。
另外微软这个数字人的一大特色是,它可以支持集成 ChatGPT-4o。
也就是说,你搭建好数字人模型和微软 Azure 提供的 TTS 后,你可以直接跟这个数字人聊天,它能实时回答你的问题,比如下面?这个视频。
不过可能有兄弟会说,搭建这个服务会不会很复杂?大家不用担心,微软很贴心地提供了示例代码,以帮助大家集成文本转语音数字人GPT-4o 模型。
同时在说话的时候,她还能做各种表情,就像我上面说的眨眼、动嘴巴这些都不在话下。
虽然微软的语音技术现在可以做到有感情色彩,不过肯定没法跟真人说话一样。
写到这里,我忍不住就想到了很多大家可以用到的应用场景:
在线客服: 有了会动会说话的 AI 客服,网站的客户也不用看冷冰冰的文字回复了,感觉亲切多了。
虚拟导游: 兄弟们可以针对旅游景点做一个项目,做好这种定制服务卖给旅游景点。这样游客去景点旅游,咱们做的 AI 导游就可以 24 小时在线,游客想问啥问啥。
数字讲解员: 前段时间我有个朋友说他要做无人售卖柜,我觉得他可以直接接入微软这个数字人,然后让它充当 AI 讲解员,这样就不用担心人手不够。
这个项目简直是太有意思了!说实话我是迫不及待想试试这个新项目。
另外,这个项目还有很多内容,我就不一样一样地讲了。后面我直接给大家总结了几点,大家慢慢看:
自然声音视频: 把文字变成自然的语音,再配上会动的数字人视频。
预生成虚拟形象: 有一堆现成的虚拟形象可以选,想要什么样的都有。
高质量视频输出: 支持 1920×1080 的高清分辨率,每秒 25 帧,画面流畅清晰。
自定义虚拟形象: 嫌弃预设的不够个性?没问题!只要录制10分钟的视频,就能创建属于你自己的专属数字人,还能自定义背景。下面这个视频就是我用Midjourney生成的背景图片上传上去,然后它们给我生成的。
实时互动: 在 Speech Studio 里有实时聊天工具,可以跟数字人实时对话。
无代码创建: 不会写代码?不要紧!Speech Studio 提供了傻瓜式的内容创建工具。
大语言模型集成: 可以直接接入 GPT-4o 等大模型,让对话更智能。
看完这些功能,我只想说:微软,你不是微软,你是巨硬,你把我们没想到和想到的东西都做好了,简直太贴心了?!
最后要说的是,虽然这个AI数字人已经很厉害了,但目前语音TTS还是用的微软自己的,尽管微软提供超过500种神经语音。
我在想,如果以后能让用户克隆自己的语音,那岂不是更酷?比如,我可以用自己的声音创建一个数字分身,24小时在线回答粉丝问题,那该多好啊!
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-11-27
企业想上大模型?现阶段的挑战、场景选择和落地方法
2024-11-27
AI Agent再进一步!Anthropic发布大模型上下文协议MCP:让任何资源快速变成大模型的工具,突破大模型的能力边界!
2024-11-26
IBM生成式AI安全框架
2024-11-26
腾讯元宝2.0版上线,多款智能体应用集结!新款大模型混元turbo:交互、搜索、多模态迎来新提升
2024-11-26
从硅谷视角看智能体(AI Agent)!
2024-11-26
大语言模型代理能否模拟人类的信任行为?
2024-11-25
Open-Set目标检测算法的原理与实践
2024-11-25
大模型时代,Data+AI 新趋势洞察
2024-05-28
2024-04-26
2024-08-21
2024-08-13
2024-04-11
2024-07-09
2024-07-18
2024-10-25
2024-07-01
2024-06-16