微信扫码
与创始人交个朋友
我要投稿
SpeechLLM 是一种多模态语言模型 (LLM),专门用于分析和预测对话中说话者的元数据。这种先进的模型集成了语音编码器,可将语音信号转换为有意义的语音表示。这些嵌入与文本指令相结合,然后由 LLM 处理以生成预测。
该模型输入16 KHz的语音音频文件,并预测以下内容:
SpeechActivity:音频信号是否包含语音(True/False)
文字记录:音频的 ASR 文字记录
发言者的性别(女/男)
演讲者的年龄(青年/中年/老年)
说话者的口音(非洲/美洲/凯尔特/欧洲/大洋洲/南亚/东南亚)
说话者的情绪(快乐/悲伤/愤怒/无所谓/沮丧)
Github:https://github.com/skit-ai/SpeechLLM
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-11-08
dify案例分享-基于多模态模型的发票识别2-多种发票识别
2024-11-07
星辰 AI 大模型:中国电信的 AI 大模型集合平台,支持多模态任务和多语种处理
2024-11-05
NotebookLM 启发的 AI 原生产品设计思路
2024-11-01
Oasis,世界第一款 AI 实时生成游戏来了,在线试玩,体验未来
2024-10-30
Cohere推出多模态 AI 搜索模型 Embed3了
2024-10-30
GPT-4o只考了21分:AI视觉推理能力受到严重质疑
2024-10-29
【文档智能】文档解析揭秘:文档结构化信息提取技术、数据集综述
2024-10-29
Midjourney又更新,AI版的PS来了
2024-05-30
2024-06-17
2024-08-06
2024-09-12
2024-08-30
2024-04-21
2024-06-26
2024-07-07
2024-07-21
2024-07-11
2024-09-26
2024-09-26
2024-09-01
2024-07-15
2024-07-14
2024-07-10
2024-07-02
2024-06-29