AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


字节实现同人类水平的同声传译Agent:端到端突破!

发布日期:2024-08-18 17:49:19 浏览次数: 2247 来源:带你学AI
字节跳动7月底推出了跨语言代理系统 (CLASI),一种高质量、类似人类的同声语音翻译 (SiST) 方案。CLASI 借鉴专业口译员的经验,采用数据驱动的读写策略,在翻译质量和延迟之间实现平衡。(论文和数据集链接在文章底部
CLASI 的卓越表现源于几个关键要素:它采用了编码器驱动的 LLM 代理架构,通过简单操作实现了接近人类水平的高质量同声传译。同时,CLASI 通过模仿人类口译员的学习,建立了一种能够自然平衡翻译质量和延迟的读写策略,避免了复杂的人工设计,确保了每次输出的稳定性,进而可能提供比大多数商业系统更好的用户体验。此外,CLASI 还借鉴了人类口译员的准备方法,能够从历史翻译和外部知识中进行上下文学习,提供更丰富的信息支持翻译过程。

01 技术原理
CLASI 的整体流程可以分为几个步骤,帮助实现流畅的语音翻译。首先,在步骤 1 中,CLASI 处理当前输入的音频数据。如果需要,还可以激活一个检索器,从外部知识库中获取相关信息。例如,如果音频中提到了“伊辛模型:Ising model”,CLASI 可以通过检索外部知识库,准确翻译这个术语。
接着,在步骤 3 中,CLASI 会读取自己的内存,回顾之前的翻译历史,以确保当前翻译与前面的内容保持一致。最后,在步骤 4 和 5 中,CLASI 利用“推理链”策略(CoT),生成最终的转录和翻译结果,并将这次的内容更新到它的内存中。然后,CLASI 进入下一轮,准备处理新的语音输入,重复这个过程。

CLASI 代理的架构运作非常清晰。在第 r 轮处理中,模型会接收当前的音频片段、之前存储的记忆(来自第 r-1 轮),以及检索到的相关知识(如果有的话)作为输入。CLASI 然后根据指令生成响应,并更新它的记忆库。
特别要注意的是,CLASI 还会输出最后一个语义块的结束时间戳。例如,对于一个包含短语“就在”的音频,CLASI 会判断这个短语还不算是一个完整的语义块,所以结束时间戳会标记在这个短语之前,以便更准确地继续翻译下一部分内容。
02 实际示例
视频演示:首先,我们通过几段即兴视频来体验 CLASI 的出色表现。所有字幕都是实时录制的翻译结果。无论是语速极快、发音复杂的绕口令,还是优美的文言文,或者即兴随性的聊天,CLASI 都能流畅、自然地给出精准地道的翻译。尤其是在会议场景中,CLASI 的表现更是令人印象深刻。
即问即答,会议场景:

古文朗诵:

中英文互译:

https://byteresearchcla.github.io/clasi/https://github.com/byteresearchcla/RealSI

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询