链载Ai

标题: TEN 框架:轻松实现与 AI 实时语音对话 [打印本页]

作者: 链载Ai    时间: 昨天 22:34
标题: TEN 框架:轻松实现与 AI 实时语音对话

在实时语音与多模态交互的应用场景中,用户更在意“说了就有回应”的体验:端到端延时低、可自然打断、可持续对话、避免他人声音干扰。
本篇文章带你了解 TEN 框架的基本概念、功能特性、应用场景及架构总览。并通过一个简单的示例,展示通过 TEN 框架实现一个可以满足用户需求的实时语音助手。
框架简介
TEN 是面向实时多模态对话与语音智能体的开源框架,其目标明确:帮助开发者快速构建支持语音、视频、图像、文本的智能体,并无缝接入大语言模型(LLM)。
框架以插件化、跨语言与可视化编排为核心,提供音频、视频、文本与工具的统一管道,可在 Windows/macOS/Linux 及移动/嵌入式环境稳定运行,交付可复制的实时体验。
功能特性
应用场景
包括但不限于:

ingFang SC", "Microsoft Yahei", Arial, "Hiragino Sans GB", sans-serif, "Apple Color Emoji", "Segoe UI Emoji", "Segoe UI Symbol", "Noto Color Emoji";color: rgb(31, 35, 41);text-align: left;font-size: 16px;line-height: 26px;word-break: break-word;margin-top: 8px;margin-bottom: 8px;min-height: 20px;">想获得更全面的 AI 工程化知识?扫描下方二维码加入赋范空间免费领取:Agent + RAG + MCP + 数据分析等成体系的教程。实时语音交互 Agent 也即将上架。

ingFang SC", "Microsoft Yahei", Arial, "Hiragino Sans GB", sans-serif, "Apple Color Emoji", "Segoe UI Emoji", "Segoe UI Symbol", "Noto Color Emoji";color: rgb(31, 35, 41);text-align: left;font-size: 16px;line-height: 26px;word-break: break-word;margin-top: 8px;margin-bottom: 8px;min-height: 20px;">

架构总览
TEN 以 Agent 为核心,通过有向图(DCG)编排各模块的数据流与控制流。每个功能以插件/扩展的形式独立运行,严格的模块边界使得替换或新增能力无需触动其他模块。控制平面与数据平面分离:控制面负责状态与指令,数据面直接承载音视频与流式文本,确保实时性与稳定性。
典型管线包含:
低延时实现:
可打断实现:
插件化与可扩展能力:
跨语言模块与多平台部署:
快速上手
这里通过多用途实时语音助手示例,直观感受 TEN 框架的强大功能。
也可直接线上体验:https://agent.theten.ai
或在github codespace中运行(教程:https://theten.ai/cn/docs/ten_agent/setup_development_env/setting_up_development_inside_codespace)

拉取仓库
git clone https://github.com/TEN-framework/ten-framework.git
cdten-framework
cdai_agents
cp./.env.example ./.env
在.env文件中配置必要的 API Keys
Deepgram 控制台获取 API Key:https://console.deepgram.com/project/

ElevenLabs 控制台获取 API Key:https://elevenlabs.io/app/developers/api-keys

Agora 控制台获取 App ID 和 App Certificate:https://console.agora.io/project-management
AGORA_APP_ID=
AGORA_APP_CERTIFICATE=

# 如果你运行的是默认语音助手示例
# Deepgram(语音转写必需)
DEEPGRAM_API_KEY=your_deepgram_api_key_here

# OpenAI(语言模型必需)
OPENAI_API_KEY=your_openai_api_key_here
OPENAI_MODEL=gpt-4o

# ElevenLabs(文本转语音必需)
ELEVENLABS_TTS_KEY=your_elevenlabs_api_key_here
启动开发容器
docker composeup-d
docker exec -it ten_agent_dev bash
运行实时语音助手示例
cd agents/examples/voice-assistant-realtime
taskinstall
task run
即可在浏览器访问 http://localhost:3000 进行实时语音交互。






欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5