微信扫码
与创始人交个朋友
我要投稿
今天,分享一款有史以来我认为最颠覆我三观的AI,这个AI可以识别人类语音的语气和语调,能看懂人脸的各种微表情,注意,是微表情。还能读懂文字内的语义,理解文字内的情绪!而且可以和它实时语音交流和视频通话,这才是真正的情感陪伴AI。
在开始使用HumeAI前,我们先来了解下这个情感智能语音AI。
核心理念
产品特点
面部表情分析:超越传统对六种基本面部表情的关注,Hume的面部情感表达模型能够生成48种输出,全面覆盖人们通常归因于面部表情的情感维度。
语音韵律分析:Hume的语音韵律模型能够捕捉到语音中的情感细微差别,生成48种输出,涵盖人们从语音韵律变化中可靠区分的情感意义。
声音爆发分析:包括叹息、笑声、惊呼等非言语声音,我们的声乐爆发表达模型能够生成48种输出,覆盖人们在声乐爆发中区分的不同情感维度。
情感语言分析:从书面或口头语言中,我们的模型能够生成53种输出,涵盖人们通常从语言中感知到的不同情感维度。
匿名面部网格模型:为需要在设备上保留个人身份数据的应用提供解决方案,该模型使用Google的MediaPipe库检测面部标志点,相对于基于图像的模型准确度达到80%。
命名实体识别(NER)模型:能够识别语音或文本中提到的主题或实体,并分析与之相关联的语言基调。
开发者工具
WebSocket API:主要接口,用于与EVI进行实时双向交互,处理音频和文本传输。
REST API:配置API,允许开发者自定义EVI,包括系统提示、语速、声音、语言模型等。
TypeScript SDK:封装了音频和WebSockets的复杂性,便于无缝集成到Web应用程序中。
Python SDK:简化了将EVI集成到任何基于Python的项目中的过程。
开源示例:示例代码库为开发者提供了起点,展示了EVI的能力。
Web Widget:任何开发者都可以轻松嵌入到他们的网站中的iframe小部件,允许用户与关于您的内容的会话AI语音进行对话。
应用领域
好了,废话不多说,我们直接看怎么用(很兴奋!)
新用户点这里进行注册,最好用外网邮箱,注册后会收到邀请函,再登录。
进入首页,点击playground(操场),会默认进入EVI配置页面
第一次进入EVI,系统会让你填写配置参数(由于我已经填写过了,所以是这个界面)。
填写配置名称(随便填)。
选择文本生成的LLMs,有免费的Claude3系列,Chatgpt系列和系统默认的LLM,这里我选的是Claude3_opus。
系统提示则是输入提示词,这里我填入的是“高情商回复prompt”。
Speech现在还没开放,预估应该是语音训练一类的,意思就是把自定义语音进行训练,用训练后的语音与用户对话。
一切就绪后,我们就可以点击“start call按钮”进行语音聊天了(要打开麦)。
期间,它说了很多话(一个话痨,可能是prompt的问题)
在这里,我的确尴尬地打断了它。
这里识别出错,其实我问他叫什么名字(混乱和怀疑的语气的确识别出来了。。。)
期间,又说了很多“甜言蜜语”我不得不打断它。。。
这里我用的是Claude3的LLM,prompt里并没有这个人物的介绍,它说自己是一个中国公司创造的AI,而且还有个中文名字,难道能听出我蹩脚的英语是中国人说出来的嘛?
接下去又说了很多废话,然后我“怒声呵斥”它,说出了我的名字。
好了,以上就是这次对话的大部内容,剩下的文件分析功能,网络摄像头表情识别功能和实时文本识别功能由于网络问题(估计玩的人挺多,一直404),今天就不展示了,有兴趣的小伙伴一定要尝试一下,真的打开新的认知。
顺带说一下,下面的彩色横线代表这句话的表达方式值,值越大彩线越长(0-1),看文档说明这个speech prosody model(声乐模型)能识别出48种表达方式。
最后,虽然看上去这是一款产品,但是它的主要商业模式是提供API接口,根据API调用量收费,新注册用户会免费送20刀,我聊了15分钟扣除了1.5刀。
以下是收费模式
传送门:https://hume.ai
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-03-30
2024-04-26
2024-05-10
2024-04-12
2024-05-28
2024-05-14
2024-04-25
2024-07-18
2024-04-26
2024-05-06
2024-12-22
2024-12-21
2024-12-21
2024-12-21
2024-12-21
2024-12-20
2024-12-20
2024-12-19