AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


情感陪伴AI它终于还是来了!HUME AI!
发布日期:2024-05-11 08:15:25 浏览次数: 2740 来源:原子社


今天,分享一款有史以来我认为最颠覆我三观的AI,这个AI可以识别人类语音的语气和语调,能看懂人脸的各种微表情,注意,是微表情。还能读懂文字内的语义,理解文字内的情绪!而且可以和它实时语音交流和视频通话,这才是真正的情感陪伴AI。

在开始使用HumeAI前,我们先来了解下这个情感智能语音AI。

核心理念

Hume AI团队相信人际交流的核心不仅仅是人类所说的话,更在于表达的方式。基于这一理念,他们的科学家团队开展了一系列开创性的研究,旨在深入理解人类如何通过面部表情、语言和声音来传达情感。目前的研究成果不仅在世界顶级科学期刊上发表,而且首次被转化为尖端的机器学习模型,为商业应用提供了前所未有的情感表达分析工具。


产品特点

  1. 面部表情分析:超越传统对六种基本面部表情的关注,Hume的面部情感表达模型能够生成48种输出,全面覆盖人们通常归因于面部表情的情感维度。


  2. 语音韵律分析:Hume的语音韵律模型能够捕捉到语音中的情感细微差别,生成48种输出,涵盖人们从语音韵律变化中可靠区分的情感意义。


  3. 声音爆发分析:包括叹息、笑声、惊呼等非言语声音,我们的声乐爆发表达模型能够生成48种输出,覆盖人们在声乐爆发中区分的不同情感维度。


  4. 情感语言分析:从书面或口头语言中,我们的模型能够生成53种输出,涵盖人们通常从语言中感知到的不同情感维度。


  5. 匿名面部网格模型:为需要在设备上保留个人身份数据的应用提供解决方案,该模型使用Google的MediaPipe库检测面部标志点,相对于基于图像的模型准确度达到80%。


  6. 命名实体识别(NER)模型:能够识别语音或文本中提到的主题或实体,并分析与之相关联的语言基调。


开发者工具

  • WebSocket API:主要接口,用于与EVI进行实时双向交互,处理音频和文本传输。


  • REST API:配置API,允许开发者自定义EVI,包括系统提示、语速、声音、语言模型等。


  • TypeScript SDK:封装了音频和WebSockets的复杂性,便于无缝集成到Web应用程序中。


  • Python SDK:简化了将EVI集成到任何基于Python的项目中的过程。


  • 开源示例:示例代码库为开发者提供了起点,展示了EVI的能力。


  • Web Widget:任何开发者都可以轻松嵌入到他们的网站中的iframe小部件,允许用户与关于您的内容的会话AI语音进行对话。


应用领域

  1. 客户服务优化:通过分析客户与客服代表的交流,系统可以实时监测客户的情绪状态,帮助客服代表更好地响应客户需求,提升服务质量。

  2. 心理健康监测:在心理健康领域,系统可以辅助识别患者的情绪波动,为医生提供更准确的诊断信息,帮助制定个性化治疗方案。

  3. 教育反馈分析:在教育环境中,系统可以分析学生对课程内容的反应,帮助教师了解学生的情感参与度,优化教学方法。

  4. 市场调研:通过分析消费者对广告或产品介绍的情感反应,市场研究人员可以更准确地把握消费者偏好,优化营销策略。

  5. 人力资源管理:在招聘过程中,系统可以帮助识别候选人的情绪稳定性和人际交往能力,辅助人才选拔。

  6. 安全监控:在安全监控领域,系统可以分析个体的行为和表情,及时发现异常情绪状态,预防潜在的安全问题。

  7. 娱乐行业:在电影、游戏和虚拟现实体验中,系统可以分析用户的情感反应,为内容创作者提供反馈,以提升用户体验。

  8. 社交媒体分析:系统可以分析社交媒体上的用户互动,帮助企业了解公众情绪,进行品牌管理和危机应对。

  9. 法律和司法:在司法系统中,系统可以辅助判断证人的可信度,通过分析证人的情绪表达来辅助真相的发现。

  10. 个人助理和智能家居:集成到个人助理或智能家居系统中,提升与用户的交互体验,使设备能够更自然地响应用户的情绪需求。

  11. 驾驶行为分析:在汽车安全系统中,系统可以监测驾驶员的情绪状态,预防由于情绪波动引起的驾驶风险。

  12. 公共安全:在公共场合,系统可以帮助监测人群的情绪状态,及时发现可能的紧张或冲突情况,及时进行干预。
  13. 艺术创作:艺术家和设计师可以利用系统分析观众对艺术作品的情感反应,以指导创作和设计。

  14. 辅助沟通:对于有沟通障碍的人士,如自闭症患者,系统可以辅助解读他们的情感状态,帮助他们更好地与外界沟通。

  15. 健康监护:在远程医疗和老年人监护中,系统可以监测患者的情绪变化,及时发现健康问题。


好了,废话不多说,我们直接看怎么用(很兴奋!)

新用户点这里进行注册,最好用外网邮箱,注册后会收到邀请函,再登录。

进入首页,点击playground(操场),会默认进入EVI配置页面

第一次进入EVI,系统会让你填写配置参数(由于我已经填写过了,所以是这个界面)。

  1. 填写配置名称(随便填)。

  2. 选择文本生成的LLMs,有免费的Claude3系列,Chatgpt系列和系统默认的LLM,这里我选的是Claude3_opus。

  3. 系统提示则是输入提示词,这里我填入的是“高情商回复prompt”。

  4. Speech现在还没开放,预估应该是语音训练一类的,意思就是把自定义语音进行训练,用训练后的语音与用户对话。

一切就绪后,我们就可以点击“start call按钮”进行语音聊天了(要打开麦)。

期间,它说了很多话(一个话痨,可能是prompt的问题)

在这里,我的确尴尬地打断了它。

这里识别出错,其实我问他叫什么名字(混乱和怀疑的语气的确识别出来了。。。)

期间,又说了很多“甜言蜜语”我不得不打断它。。。

这里我用的是Claude3的LLM,prompt里并没有这个人物的介绍,它说自己是一个中国公司创造的AI,而且还有个中文名字,难道能听出我蹩脚的英语是中国人说出来的嘛?

接下去又说了很多废话,然后我“怒声呵斥”它,说出了我的名字。

好了,以上就是这次对话的大部内容,剩下的文件分析功能,网络摄像头表情识别功能和实时文本识别功能由于网络问题(估计玩的人挺多,一直404),今天就不展示了,有兴趣的小伙伴一定要尝试一下,真的打开新的认知。

顺带说一下,下面的彩色横线代表这句话的表达方式值,值越大彩线越长(0-1),看文档说明这个speech prosody model(声乐模型)能识别出48种表达方式。

最后,虽然看上去这是一款产品,但是它的主要商业模式是提供API接口,根据API调用量收费,新注册用户会免费送20刀,我聊了15分钟扣除了1.5刀。

以下是收费模式


传送门:https://hume.ai




53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询