我要投稿

情感陪伴AI它终于还是来了！HUME AI！

发布日期：2024-05-11 08:15:25 浏览次数： 3709 作者：原子社

今天，分享一款有史以来我认为最颠覆我三观的AI，这个AI可以识别人类语音的语气和语调，能看懂人脸的各种微表情，注意，是微表情。还能读懂文字内的语义，理解文字内的情绪！而且可以和它实时语音交流和视频通话，这才是真正的情感陪伴AI。

在开始使用HumeAI前，我们先来了解下这个情感智能语音AI。

核心理念

Hume AI团队相信人际交流的核心不仅仅是人类所说的话，更在于表达的方式。基于这一理念，他们的科学家团队开展了一系列开创性的研究，旨在深入理解人类如何通过面部表情、语言和声音来传达情感。目前的研究成果不仅在世界顶级科学期刊上发表，而且首次被转化为尖端的机器学习模型，为商业应用提供了前所未有的情感表达分析工具。

产品特点

面部表情分析：超越传统对六种基本面部表情的关注，Hume的面部情感表达模型能够生成48种输出，全面覆盖人们通常归因于面部表情的情感维度。
语音韵律分析：Hume的语音韵律模型能够捕捉到语音中的情感细微差别，生成48种输出，涵盖人们从语音韵律变化中可靠区分的情感意义。
声音爆发分析：包括叹息、笑声、惊呼等非言语声音，我们的声乐爆发表达模型能够生成48种输出，覆盖人们在声乐爆发中区分的不同情感维度。
情感语言分析：从书面或口头语言中，我们的模型能够生成53种输出，涵盖人们通常从语言中感知到的不同情感维度。
匿名面部网格模型：为需要在设备上保留个人身份数据的应用提供解决方案，该模型使用Google的MediaPipe库检测面部标志点，相对于基于图像的模型准确度达到80%。
命名实体识别（NER）模型：能够识别语音或文本中提到的主题或实体，并分析与之相关联的语言基调。

开发者工具

WebSocket API：主要接口，用于与EVI进行实时双向交互，处理音频和文本传输。
REST API：配置API，允许开发者自定义EVI，包括系统提示、语速、声音、语言模型等。
TypeScript SDK：封装了音频和WebSockets的复杂性，便于无缝集成到Web应用程序中。
Python SDK：简化了将EVI集成到任何基于Python的项目中的过程。
开源示例：示例代码库为开发者提供了起点，展示了EVI的能力。
Web Widget：任何开发者都可以轻松嵌入到他们的网站中的iframe小部件，允许用户与关于您的内容的会话AI语音进行对话。

应用领域

客户服务优化：通过分析客户与客服代表的交流，系统可以实时监测客户的情绪状态，帮助客服代表更好地响应客户需求，提升服务质量。
心理健康监测：在心理健康领域，系统可以辅助识别患者的情绪波动，为医生提供更准确的诊断信息，帮助制定个性化治疗方案。
教育反馈分析：在教育环境中，系统可以分析学生对课程内容的反应，帮助教师了解学生的情感参与度，优化教学方法。
市场调研：通过分析消费者对广告或产品介绍的情感反应，市场研究人员可以更准确地把握消费者偏好，优化营销策略。
人力资源管理：在招聘过程中，系统可以帮助识别候选人的情绪稳定性和人际交往能力，辅助人才选拔。
安全监控：在安全监控领域，系统可以分析个体的行为和表情，及时发现异常情绪状态，预防潜在的安全问题。
娱乐行业：在电影、游戏和虚拟现实体验中，系统可以分析用户的情感反应，为内容创作者提供反馈，以提升用户体验。
社交媒体分析：系统可以分析社交媒体上的用户互动，帮助企业了解公众情绪，进行品牌管理和危机应对。
法律和司法：在司法系统中，系统可以辅助判断证人的可信度，通过分析证人的情绪表达来辅助真相的发现。
个人助理和智能家居：集成到个人助理或智能家居系统中，提升与用户的交互体验，使设备能够更自然地响应用户的情绪需求。
驾驶行为分析：在汽车安全系统中，系统可以监测驾驶员的情绪状态，预防由于情绪波动引起的驾驶风险。
公共安全：在公共场合，系统可以帮助监测人群的情绪状态，及时发现可能的紧张或冲突情况，及时进行干预。
艺术创作：艺术家和设计师可以利用系统分析观众对艺术作品的情感反应，以指导创作和设计。
辅助沟通：对于有沟通障碍的人士，如自闭症患者，系统可以辅助解读他们的情感状态，帮助他们更好地与外界沟通。
健康监护：在远程医疗和老年人监护中，系统可以监测患者的情绪变化，及时发现健康问题。

好了，废话不多说，我们直接看怎么用（很兴奋！）

新用户点这里进行注册，最好用外网邮箱，注册后会收到邀请函，再登录。

进入首页，点击playground（操场），会默认进入EVI配置页面

第一次进入EVI，系统会让你填写配置参数（由于我已经填写过了，所以是这个界面）。

填写配置名称（随便填）。
选择文本生成的LLMs，有免费的Claude3系列，Chatgpt系列和系统默认的LLM，这里我选的是Claude3_opus。
系统提示则是输入提示词，这里我填入的是“高情商回复prompt”。
Speech现在还没开放，预估应该是语音训练一类的，意思就是把自定义语音进行训练，用训练后的语音与用户对话。

一切就绪后，我们就可以点击“start call按钮”进行语音聊天了（要打开麦）。

期间，它说了很多话（一个话痨，可能是prompt的问题）

在这里，我的确尴尬地打断了它。

这里识别出错，其实我问他叫什么名字（混乱和怀疑的语气的确识别出来了。。。）

期间，又说了很多“甜言蜜语”我不得不打断它。。。

这里我用的是Claude3的LLM，prompt里并没有这个人物的介绍，它说自己是一个中国公司创造的AI，而且还有个中文名字，难道能听出我蹩脚的英语是中国人说出来的嘛？

接下去又说了很多废话，然后我“怒声呵斥”它，说出了我的名字。

好了，以上就是这次对话的大部内容，剩下的文件分析功能，网络摄像头表情识别功能和实时文本识别功能由于网络问题（估计玩的人挺多，一直404），今天就不展示了，有兴趣的小伙伴一定要尝试一下，真的打开新的认知。

顺带说一下，下面的彩色横线代表这句话的表达方式值，值越大彩线越长（0-1），看文档说明这个speech prosody model（声乐模型）能识别出48种表达方式。

最后，虽然看上去这是一款产品，但是它的主要商业模式是提供API接口，根据API调用量收费，新注册用户会免费送20刀，我聊了15分钟扣除了1.5刀。

以下是收费模式

传送门：https://hume.ai

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2024-07-10

科研助力神器：Scholar GPT，百倍提升你的研究效率！

2024-07-09

Doc2X：一款功能超级强大的文档解析与转换工具

2024-07-06

我对多智能体协作过程自动演化架构设计

2024-07-06

可穿戴AI，底层逻辑的变化

2024-07-06

一文彻底搞懂Transformer - Word Embedding（词嵌入）

2024-07-06

AI动态 | 腾讯元宝AI搜索能力升级：深度搜索模式上线

2024-07-06

智能手表 + AI ，都已经这么智能了？？

2024-07-06

死磕10万卡GPU算力集群，腾讯星脉网络2.0有什么秘密武器？

了解更多

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

爆肝50小时，DeepSeek使用技巧，你收藏这一篇就够了！

2025-02-01

Ollama 本地运行大模型(LLM)完全指南

2024-07-25

我把最近爆火的 DeepSeek-V3 接到了 Cursor！

2025-01-01

一文读懂DeepSeek-R1本地部署配置要求（建议收藏）

2025-02-04

本地部署大模型？看这篇就够了，Ollama 部署和实战

2024-08-13

更改ollama模型存储路径

2024-04-25

16个具有“联网搜索”功能的AI：总有一个适合你！

2024-06-13

Cursor 一个真正让程序员产生危机感的 AI 编程工具

2024-08-21

OpenAI o1与GPT4o的对比分析

2024-09-23

全民AI时代：手把手教你用Ollama & AnythingLLM搭建AI知识库，无需编程，跟着做就行！

2024-04-26

大家都在问

25种RAG架构大揭秘：AI项目如何选型？

2025-05-08

阿里云发了MCP，意味着什么？

2025-05-08

LoRA为何成为大模型微调不可或缺的核心技术？

2025-05-07

AI Agent“虚火”过旺，或沦为“假Agent”？

2025-05-07

为什么AI多轮对话总是那么傻？

2025-05-07

大模型微调真的有技术含量吗？

2025-05-07

RAG系统中的偏见问题：如何让AI更公平？

2025-05-05

o3 深度解读：OpenAI 终于发力 tool use，agent 产品危险了吗？

2025-04-30

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB

应聘简历请发送至： ceo@53ai.com

友情链接：

CopyRight © 2012-2024 深圳市博思协创网络科技有限公司版权所有

粤ICP备17114055号

广州：广州市华景路37号(华景软件园)暨南大学科技大厦6楼（整层）

深圳：深圳市福田区泰然四路29号天安创新科技广场一期A座1204

上海：上海市浦东新区金新路58号1602室

微信扫码
和创始人交个朋友

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部