链载Ai
标题:
字节实现同人类水平的同声传译Agent:端到端突破!
[打印本页]
作者:
链载Ai
时间:
2 小时前
标题:
字节实现同人类水平的同声传译Agent:端到端突破!
字节跳动在7月底推出了跨语言代理系统 (CLASI),一种高质量、类似人类的同声语音翻译 (SiST) 方案。CLASI 借鉴专业口译员的经验,采用数据驱动的读写策略,在翻译质量和延迟之间实现平衡。(
论文和数据集链接在文章底部
)
CLASI 的卓越表现源于几个关键要素:它采用了编码器驱动的 LLM 代理架构,通过简单操作实现了接近人类水平的高质量同声传译。同时,CLASI 通过模仿人类口译员的学习,建立了一种能够自然平衡翻译质量和延迟的读写策略,避免了复杂的人工设计,确保了每次输出的稳定性,进而可能提供比大多数商业系统更好的用户体验。此外,CLASI 还借鉴了人类口译员的准备方法,能够从历史翻译和外部知识中进行上下文学习,提供更丰富的信息支持翻译过程。
01 技术原理
—
CLASI 的整体流程可以分为几个步骤,帮助实现流畅的语音翻译。首先,在步骤 1 中,CLASI 处理当前输入的音频数据。如果需要,还可以激活一个检索器,从外部知识库中获取相关信息。例如,如果音频中提到了“伊辛模型:Ising model”,CLASI 可以通过检索外部知识库,准确翻译这个术语。
接着,在步骤 3 中,CLASI 会读取自己的内存,回顾之前的翻译历史,以确保当前翻译与前面的内容保持一致。最后,在步骤 4 和 5 中,CLASI 利用“推理链”策略(CoT),生成最终的转录和翻译结果,并将这次的内容更新到它的内存中。然后,CLASI 进入下一轮,准备处理新的语音输入,重复这个过程。
CLASI 代理的架构运作非常清晰。在第 r 轮处理中,模型会接收当前的音频片段、之前存储的记忆(来自第 r-1 轮),以及检索到的相关知识(如果有的话)作为输入。CLASI 然后根据指令生成响应,并更新它的记忆库。
特别要注意的是,CLASI 还会输出最后一个语义块的结束时间戳。例如,对于一个包含短语“就在”的音频,CLASI 会判断这个短语还不算是一个完整的语义块,所以结束时间戳会标记在这个短语之前,以便更准确地继续翻译下一部分内容。
02实际示例
—
视频演示:首先,我们通过几段即兴视频来体验 CLASI 的出色表现。所有字幕都是实时录制的翻译结果。无论是语速极快、发音复杂的绕口令,还是优美的文言文,或者即兴随性的聊天,CLASI 都能流畅、自然地给出精准地道的翻译。尤其是在会议场景中,CLASI 的表现更是令人印象深刻。
即问即答,会议场景:
古文朗诵:
中英文互译:
https://byteresearchcla.github.io/clasi/https://github.com/byteresearchcla/RealSI
欢迎光临 链载Ai (https://www.lianzai.com/)
Powered by Discuz! X3.5