微信扫码
与创始人交个朋友
我要投稿
2024年12月12日,上海AI实验室推出多模态实时交互大模型书生·浦语灵笔2.5-OL(InternLM-XComposer2.5-OmniLive),该模型可以通过视觉和听觉实时观察和理解外部世界,自动形成对观察到内容的长期记忆,并可通过语音与人类用户进行对话交谈,提供更自然的大模型交互体验。
书生·浦语灵笔首发于2023年10月,经过历次迭代,已具备图文理解、图文混合创作、超高分辨率图像分析、超长多模态上下文等多项能力,获得了开源社区的广泛关注和好评,全系列模型累计下载量超过200万次。
书生·浦语灵笔2.5-OL基于书生·浦语2.5大语言模型(InternLM 2.5)研发,采用了多模块通专融合的架构方案,通过多模态实时感知及记忆编码的快系统和多模态复杂推理大模型的慢系统协同,实现多模态实时交互功能。
书生·浦语灵笔2.5-OL的效果实测,展现了高质量的实时视频语音交互能力,不仅支持高精度的实时视觉感知和语音对话,还创新地提出了多模态长期记忆的功能,可以准确回忆看过的内容。例如在演示视频中帮助用户找到遗忘在桌子上的矿泉水,并且回忆起桌子上还有盆栽。
技术报告地址:
https://arxiv.org/pdf/2412.09596
开源模型地址:
https://huggingface.co/internlm/internlm-xcomposer2d5-ol-7b
代码仓库地址:(文末点击阅读可直达,欢迎star)
https://github.com/InternLM/InternLM-XComposer/tree/main/InternLM-XComposer-2.5-OmniLive
感知模块:
实时感知音频、视频输入,对音频信号进行语音识别和音频分类,对视觉信号抽取视觉特征:
音频感知:研究人员训练了一个轻量的音频多模态大模型,实时监听输入的音频流,同时进行语音识别和音频分类,理解人类语音内容和识别背景声音。
视觉感知:通过视觉编码器实时抽取视觉特征。
记忆模块:
持续对输入的视觉特征进行多层级的记忆压缩,不断进行视觉记忆编码压缩,支持根据指令对视觉记忆的高效检索。
短时记忆压缩:对短期视频片段内进行记忆压缩,形成精确的短期记忆。
长期记忆压缩:对短期记忆进一步压缩,形成高压缩比的长期记忆。
记忆查询:根据指令查询长期记忆,召回指令相关的短期记忆片段,用于思考模块的多模态理解。
思考模块:
判断语音输入是否为需要响应的用户指令,避免误触发影响使用体验。对于需要影响的用户需求,结合指令查询视觉记忆,并回答问题。
判断用户指令是否需要响应。
调用记忆模块查询历史视觉记忆,用于多模态理解和推理, 并回答用户问题。
调用外部语音合成模块合成最终语音输出。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-12-22
花60元,DIY了一个AI机器人,能聊天,会认人……
2024-12-21
基于AI智能助理的软件开源组件安全检查
2024-12-21
Llama2024年度要点总结
2024-12-21
重磅! Github Copilot 免费了
2024-12-20
万字长文帮你搞定AI Agent选型
2024-12-20
微软开源的 Markitdown 可将任意文件转换为 Markdown 格式,PDF 解析咋样?
2024-12-20
Claude的MCP(模型上下文协议)简介
2024-12-20
历时2年,华人团队力作,震撼开源生成式物理引擎Genesis,可模拟世界万物
2024-05-06
2024-07-25
2024-08-13
2024-06-12
2024-07-11
2024-06-16
2024-07-20
2024-09-20
2024-06-15
2024-07-25
2024-12-20
2024-12-19
2024-11-22
2024-11-19
2024-11-13
2024-11-13
2024-10-07
2024-09-22