字节实现同人类水平的同声传译Agent：端到端突破！ - 链载Ai

字节跳动在7月底推出了跨语言代理系统 (CLASI)，一种高质量、类似人类的同声语音翻译 (SiST) 方案。CLASI 借鉴专业口译员的经验，采用数据驱动的读写策略，在翻译质量和延迟之间实现平衡。（论文和数据集链接在文章底部）

CLASI 的卓越表现源于几个关键要素：它采用了编码器驱动的 LLM 代理架构，通过简单操作实现了接近人类水平的高质量同声传译。同时，CLASI 通过模仿人类口译员的学习，建立了一种能够自然平衡翻译质量和延迟的读写策略，避免了复杂的人工设计，确保了每次输出的稳定性，进而可能提供比大多数商业系统更好的用户体验。此外，CLASI 还借鉴了人类口译员的准备方法，能够从历史翻译和外部知识中进行上下文学习，提供更丰富的信息支持翻译过程。

CLASI 的整体流程可以分为几个步骤，帮助实现流畅的语音翻译。首先，在步骤 1 中，CLASI 处理当前输入的音频数据。如果需要，还可以激活一个检索器，从外部知识库中获取相关信息。例如，如果音频中提到了“伊辛模型：Ising model”，CLASI 可以通过检索外部知识库，准确翻译这个术语。

接着，在步骤 3 中，CLASI 会读取自己的内存，回顾之前的翻译历史，以确保当前翻译与前面的内容保持一致。最后，在步骤 4 和 5 中，CLASI 利用“推理链”策略（CoT），生成最终的转录和翻译结果，并将这次的内容更新到它的内存中。然后，CLASI 进入下一轮，准备处理新的语音输入，重复这个过程。

CLASI 代理的架构运作非常清晰。在第 r 轮处理中，模型会接收当前的音频片段、之前存储的记忆（来自第 r-1 轮），以及检索到的相关知识（如果有的话）作为输入。CLASI 然后根据指令生成响应，并更新它的记忆库。

特别要注意的是，CLASI 还会输出最后一个语义块的结束时间戳。例如，对于一个包含短语“就在”的音频，CLASI 会判断这个短语还不算是一个完整的语义块，所以结束时间戳会标记在这个短语之前，以便更准确地继续翻译下一部分内容。

视频演示：首先，我们通过几段即兴视频来体验 CLASI 的出色表现。所有字幕都是实时录制的翻译结果。无论是语速极快、发音复杂的绕口令，还是优美的文言文，或者即兴随性的聊天，CLASI 都能流畅、自然地给出精准地道的翻译。尤其是在会议场景中，CLASI 的表现更是令人印象深刻。

https://byteresearchcla.github.io/clasi/https://github.com/byteresearchcla/RealSI