AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


SpeechLLM: 分析音频演讲者情感的大模型
发布日期:2024-07-02 09:39:42 浏览次数: 1985 来源:AI Code


SpeechLLM 是一种多模态语言模型 (LLM),专门用于分析和预测对话中说话者的元数据。这种先进的模型集成了语音编码器,可将语音信号转换为有意义的语音表示。这些嵌入与文本指令相结合,然后由 LLM 处理以生成预测。

该模型输入16 KHz的语音音频文件,并预测以下内容:

  1. SpeechActivity:音频信号是否包含语音(True/False)

  2. 文字记录:音频的 ASR 文字记录

  3. 发言者的性别(女/男)

  4. 演讲者的年龄(青年/中年/老年)

  5. 说话者的口音(非洲/美洲/凯尔特/欧洲/大洋洲/南亚/东南亚)

  6. 说话者的情绪(快乐/悲伤/愤怒/无所谓/沮丧)

Github:https://github.com/skit-ai/SpeechLLM


53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询