ingFang SC";font-weight: bold;color: rgb(255, 66, 0);line-height: 20px;visibility: visible;"> 本专题是我们打造智能数字人的部分实践总结。我们将探讨六大核心环节:LLM文案生产赋予数字人思考和内容生成能力,如同其“大脑”;LLM互动能力则聚焦对话逻辑与拟人化交流,是实现自然交互的关键;TTS(语音合成)技术负责将文字转化为富含情感、个性化的“声音”;形象驱动技术让语音与表情、口型、肢体动作精准同步,塑造逼真视觉形象;音视频工程解决实时渲染、低延迟传输与高质量画面输出的技术挑战;最后,服务端工程构建稳定、弹性、高并发的后端支撑平台,确保数字人服务高效稳定运行。欢迎大家一起交流进步。第一篇:《淘宝直播数字人LLM推理优化:模型蒸馏与路径压缩实践》 ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.544px;visibility: visible !important;width: 114px !important;"/>ingFang SC", system-ui, -apple-system, "system-ui", "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 17px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: 0.544px;orphans: 2;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;text-align: center;visibility: visible;">引言随着AIGC浪潮的到来,将AI和直播场景结合的数字人直播带货逐渐走入大家的视野。从AIGC的角度而言,数字人无疑是一个完美的落脚点和试验田。我们是淘宝直播AIGC团队,整个数字人链路的组成是非常丰富的,AI算法模块上主要包含了CV(Computer Vision)视觉、TTS(Text To Speech)语音、LLM(Large Language Model)大模型三部分,部分方向上的交叉还组成了多模态的模块,当然整体架构上还必须和工程模块要有紧密的配合。 ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.544px;visibility: visible !important;width: 114px !important;"/>ingFang SC", system-ui, -apple-system, "system-ui", "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 17px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: 0.544px;orphans: 2;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;text-align: center;visibility: visible;">业务背景介绍ingFang SC", system-ui, -apple-system, "system-ui", "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 17px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: 0.544px;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;background-color: rgb(255, 255, 255);line-height: 1.75em;visibility: visible;box-sizing: border-box !important;overflow-wrap: break-word !important;">在数字人直播中,弹幕互动不仅仅是观众输入文字的一种方式,它是维持和增强用户体验的关键机制。通过良好的弹幕互动设计,数字人直播能在娱乐、信息传达和用户参与度之间找到平衡,从而提升整体直播质量和商业潜能。为了实现实时互动的功能,目前我们有两种弹幕互动的形式:一种是在直播间弹幕区通过用文本展示回复,另一种方式是把回复的内容通过TTS和唇驱让数字人口播。由于两种方式对于资源的要求和耗时的不同,口播回复在资源更充足的旗舰版上主推,其余版本主要采用文本展示回复的形式。具体的问答示例如下:ingFang SC", system-ui, -apple-system, "system-ui", "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 17px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: 0.544px;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;background-color: rgb(255, 255, 255);line-height: 1.75em;visibility: visible;box-sizing: border-box !important;overflow-wrap: break-word !important;"> ingFang SC", system-ui, -apple-system, "system-ui", "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 17px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: 0.544px;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;background-color: rgb(255, 255, 255);line-height: 1.75em;visibility: visible;box-sizing: border-box !important;overflow-wrap: break-word !important;">
ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.544px;visibility: visible !important;width: 114px !important;"/>ingFang SC", system-ui, -apple-system, "system-ui", "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 17px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: 0.544px;orphans: 2;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;text-align: center;visibility: visible;">互动架构总览

互动整体架构上主要包含以下模块: 预置库匹配模块:使用弹幕信息进行FAQ问答预置库的检索,如果命中商家配的预置库就不会进入意图识别流程,直接使用命中预置库作为意图,以预置库中配置答案进行回复。匹配算法为嵌入向量模型匹配召回,重排模型筛选。 意图识别模块:未命中预置库情况下,使用弹幕、历史对话和直播间状态进行意图识别,确认弹幕的实际意图,不同意图对应着后续的不同逻辑。 实体解析模块:多轮商品实体识别模块的功能是根据用户的历史对话以及识别的意图,解析出相关的商品名称、商品属性或链接号等。 检索模块:
如果意图为链接号商品问答/讲解则使用链接号检索需要的商品信息; 如果意图为无主语商品问答则直接使用当前讲品信息作为检索结果; 如果意图为商品问答/讲解则使用当前弹幕作为query在向量库中查询最匹配商品作为检索结果。
▐背景与挑战
自去年12月以来,我们着手研发多轮互动大型语言模型(LLM)以提升观众与主播之间的互动体验,从而避免因单轮对话中AI身份暴露而导致的用户兴趣流失。在这个过程中,我们遇到了两大挑战。
为此,我们开发了一个适用于直播数字人的多轮对话框架,以支持全面的多轮问答。同时,我们创新性地定义了新的意图识别输入输出范式,不仅拓展了输入范围(包括系统指令、直播间产品信息和观众弹幕),还采用LLM替代BERT作为基座模型。在多轮意图识别实验中,我们的模型表现优异,相较于DeepSeek-R1准确率更高(我们的模型精度为80%,而DeepSeek-R1为71%),并显著超越了在相同数据集上训练的BERT模型。
▐多轮互动架构


观众弹幕 | 历史对话 | 意图识别结果 | 数字人回复 | 智能马桶 | user: 能不能推荐马桶 assistant: 主播建议可以先看看17号链接。这款智能马桶功能齐全,包括停电冲水、自动调节座温水温、脚感冲水等,非常适合小户型使用,性价比很高。 | 商品问答 | 17号链接的九牧智能马桶有停电冲水、自动调节水温、脚感冲水等功能,券后价2199,现在入手很划算哦。 | 蓝牙连哪一个呢 | user: 请问领夹麦要连蓝牙吗 assistant: 我们这款领夹麦是蓝牙连接的,方便又实用哦。 | 商品问答 | 宝宝可以看一下6号链接的金运蓝牙耳机,是无线蓝牙连接的哦,或者11号链接的入耳式款,都是蓝牙连接的哈。 | 好的 | user: 怎么抽奖? assistant: 抽奖的问题比较专业,建议宝宝去问下客服哈,他们应该更清楚具体的规则呢。 | 闲聊 | 好的,祝你抽奖顺利! |
▐多轮意图识别模型

使用单轮意图模型和DeepSeek-V3在清洗后的20k量级数据上分别进行预测,仅保留预测结果不一致的数据。(预测一致的数据靠原有的单轮数据就可以补充其分类能力) 再次清洗,筛去不合规弹幕数据,比如偷跑弹幕数据(实际弹幕是在和真人对话但是是开的数字人直播)、刷屏数据,这一步人工筛选。 送标,交由标注人员进行标注。 算法RD逐条检查标注结果,人工筛掉那些人为难以分辨、理解的数据,最后保留3000+条多轮意图识别数据。
method | description | accuracy | deepseek-V3 | prompt engineering | 0.66 | deepseek-R1 | prompt engineering | 0.71 | Qwen2.5 7B仅在多轮数据sft | 仅在3000条多轮数据微调,无cot,直接出答案 | 0.77 | Qwen2.5 7B在多轮&单轮数据上sft,直接出结果 | 在3000条多轮数据+16000条单轮数据上微调,无cot,直接出答案 | 0.80 | BERT在多轮&单轮数据上finetune | 在3000条多轮数据+16000条单轮数据上微调,与Qwen在数据上完全对齐 | 0.69 |
相比于单轮意图难判断很多,每条数据可能需要半分钟到一分钟来确定真实意图是什么 目前的输入源[当前直播间讲品信息, 与观众的历史对话, 观众当前弹幕]完全足以判断观众的真实意图 存在的模糊空间比单轮意图更大,基于上下文也许既能提取到观众问的链接号也能提取到观众想问商品的关键词,还有可能观众之前问的品通过调整顺序之后现在就在讲,但是这种case其实分错了,后续也能回答对
Good Case分析 当前弹幕 | 当前讲品 | 历史对话 | 单轮意图 | 多轮意图 | 说明 | 智能马桶 | | user:能不能推荐马桶 assistant: 主播建议可以先看看17号链接。这款智能马桶功能齐全,包括停电冲水、自动调节座温水温、脚感冲水等,非常适合小户型使用,性价比很高。 | 商品讲解 | 商品问答 | 如果仅看一轮意图,观众直接说了一个商品,那么就会给观众讲智能马桶,结合多轮数据后识别到用户是希望推荐智能马桶 | 擦头发 | | user:哪款适合擦头发 assistant: 主播建议可以先看看2号链接。这款干发毛巾采用纯棉材质,吸水性好,设计多样,非常适合日常使用。 | 拒答 | 商品问答 | 只看"擦头发"不知所云,结合上下文后识别到用户是要擦头发的商品 | 主播你好,这款进位器需要充电吗? | gps定位器车载车辆防丢防盗追跟定仪器订位汽车跟踪追踪录音神器 | user: 主播你好,要充电吗assistant: 这个问题蛮专业的,我不太清楚,可以去问下客服哈,他们应该了解。 | 商品问答 | 无主语商品问答 | 只看弹幕,可能被分类到"商品问答"意图,去宝贝口袋检索商品,但是结合当前讲品来看,基本确定问的就是正在讲的商品 |
多轮对比DeepSeek-R1结果分析
method | description | accuracy | Qwen2.5 7B仅在多轮数据sft | 仅在3000条多轮数据微调,无cot,直接出答案 | 0.77 | Qwen2.5 7B仅在多轮cot数据sft | 仅在3000条多轮cot数据微调,带cot,reasoning后出答案 | 0.68 |
多轮商品实体识别模块的功能是根据用户的历史对话以及识别的意图,解析出相关的商品名称、商品属性或链接号等。 核心挑战:需处理历史依赖、数字干扰、商品泛化等复杂场景。 输入:用户当前弹幕+历史对话记录+识别的多轮意图 输出:结构化提取以下三类实体: 商品实体(特仑苏纯牛奶) 商品属性(2匹/39码/iPhone15) 链接号(107号/39号)

▐训练数据
数据源使用和意图识别同一批的训练数据,保留商品问答、商品讲解、链接号商品问答、链接号商品讲解数据,使用DeepSeek-R1(测试集上准确率最高)+人工过滤的方式得到2100条高质量多轮商品解析数据。
数据维度 | 说明 | 基础数据 | 保留原始数据中的商品问答(840条)、商品讲解(210条)、链接号相关(770条) | 数据增强 | 采用对抗样本生成策略新增1000条,覆盖发音/拼写/方言等干扰场景 | 质量保障 | - 多阶段DeepSeek-R1推理生成 - 人工校验 |
▐数据增强
数值歧义 链接号会受到对话中数值信息的干扰,导致解析结果错误,需要提升模型对数字的敏感度。以下是三类干扰类型: 干扰类型 | 典型案例 | 错误分析 | 产品功率数值 | 2匹空调 → 提取2 | 数值型参数与链接号混淆 | 尺码/尺寸数值 | 39码运动鞋 → 提取39 | 未建立「参数-链接号」层级关系 | 版本迭代数字 | iPhone15 → 提取15 | 商品名称中的数字被误判为链接号 |
我们使用DeepSeek-R1进行二阶段数据生成,先生成干扰类型,再根据干扰类型生成对话样本,有效提升数据多样性。 
商品泛化 如果对话历史中出现具体商品,模型会错误提取为具体商品,而用户问的是泛化商品。例如: 用户问:哪个牛奶有活动 -> 模型错误提取:特仑苏纯牛奶 我们生成泛化类型商品,主要包含以下三种: 泛化类型 | 商品 | 类型 | 商品泛化 | 佳沛奇异果 | 水果 | 品牌泛化 | 特仑苏纯牛奶 | 牛奶 | 规格泛化 | 农夫山泉5L装 | 大瓶装水 |
我们先人工标注一批商品,用DeepSeek-R1扩展商品池后再结合商品类目生成对话样本。 
历史噪声 当历史对话中的商品与用户当前弹幕中的商品冲突时,会解析成对话历史中的明确商品,需要生成对抗数据,提升模型抗噪声能力。我们总结概括了以下问题类型: 问题类型 | 生成策略 | 示例 | 发音简写 | 保留首字母+数字 | i12 → iPhone12 | 拼写错误 | 相邻键位替换/漏字母 | iQO10 → iQOO10 | 系列混淆 | 跨代系混合 | 小米13 → 小米14 | 方言谐音 | 拼音变形 | 爱酷11 → iQOO11 |
我们使用DeepSeek-R1先生成存在不同问题类型的商品对,再根据商品对生成对话样本。 
▐实验&case分析
训练方法:我们使用7B的底座模型进行LoRA微调 评测指标:计算预测item和实际item字符串2-gram的Jaccard相似度,正确阈值设置为0.7,最终指标使用accuracy。 
表示表示字符串S的2-gram集合
model | acc | gpt4-fewshot-cot | 0.77 | deepseek-r1 | 0.87 | ours | 0.92 |
| | | | | "观众弹幕: 鞋", "主播回复: 涛涛小铺吖宝宝,154号宝贝可以先看看商详页,这个商品我会在晚些的直播时间段里专门来讲解噢。好,那主播先把107号宝贝讲完哈" | | | | "观众弹幕: 12跟13比哪个性价比高","主播回复: iQOO 12和iQOO 13的性价比需要综合考虑价格和性能。iQOO 12原价3999元,券后价3118.3元,iQOO 13原价3999元,券后价3928.3元。iQOO 12的性价比更高,建议宝宝可以优先考虑iQOO 12。","观众弹幕: 12跟13哪个性能更好","主播回复: iQOO 13的CPU是骁龙8至尊版,而iQOO 12的CPU是第三代骁龙8,从性能上来说,iQOO 13更胜一筹。","观众弹幕: 拍照哪个好","主播回复: 主播建议可以先看看39号链接。这款手机主摄像素高达5000万,前置摄像头1600万像素,超广角像素也是5000万,非常适合喜欢拍照的小伙伴。" | | | | 观众弹幕: 7号可以录音吗?主播回复: 7号链接的高端定位器有录音功能哦,具体细节可以问下客服哈,他们更清楚呢观众弹幕:七号连接,要连接WIFI吗?主播回复:7号链接的高端定位器有WIFI版本哦,具体怎么操作可以问下客服哈,他们更清楚呢 | | | | 观众弹幕:30和27号的优惠主播回复:咱们下单前记得点击直播间右下角的宝贝口袋,看到有店铺优惠券的哈,进店查看宝贝后即可领取。 | | |

每次检索宝贝口袋商品时,首先和实时宝贝口袋商品进行同步,输入商品信息,使用BERT计算上下文向量,新增向量库中没有的向量,剔除不存在于宝贝口袋的商品向量。每一条向量对应一个itemId。 同步完实时宝贝口袋后,使用BERT计算查询向量,找到相似度最高的商品后,再使用商品信息和弹幕信息进行BM25在词频程度上进行精排,最后根据词频-语义混合过滤得到最终的检索结果。以商品信息列表的形式返回。 通过添加词频精排模块可以有效解决短query难召回的问题。
▐生成任务定义
历史对话 | 当前弹幕 | 主播回复 | user: 买好了 assistant: 太棒了,感谢支持!希望你会喜欢哦! user: 忘记写手几号怎么办assistant: 没关系的,可以联系客服帮忙查询一下,他们会帮你解决的。 | 联系客服了 | 好的,客服会尽快帮你解决的,别担心。 |
观众弹幕 | 主播回复 | 商品检索结果(实际商详过长,省略去无关信息) | 你好,有3p的壁挂式空调吗 | 咱们209号链接的格力空调就是3匹的壁挂式哈,现在券后价6399,活动力度很大哦。 | [{ "商品名": "【Gree/格力官方】变频冷暖2匹大挂机家用客厅卧室两用空调清炫风", "链接号":208 },{ "商品名": "【Gree/格力官方】变频冷暖3匹大挂机家用客厅卧室两用空调清炫风", "链接号":209 },{ "商品名": "【Gree/格力官方】一级能效变频冷暖小2匹家用卧室空调挂机风纪元", "链接号": 288 }] |
观众弹幕 | 主播回复 | 优惠信息 | 怎么拍划算 | 咱们下单前记得点击直播 间右下角的宝贝口袋,看 到有宠粉红包的哈,进店 查看宝贝后即可领取。 | { "红包类型": "购前券", "红包名称": "宠粉红包", "金额门槛": "无门槛", "优惠额度": "4.0元", "红包限制": "限粉丝", "领取方法": "进店查看宝贝" } | 现在还有国补嘛 | 有宝宝问现在还有国补 吗,你可以直接在宝贝口 袋查看,有政府补贴的商 品会有标签的哈,点进去 领取就行,不同地区政策 不一样的。 | |
▐互动LLM模型训练数据

意图 | 数据类型 | 数据数量 | 意图 | 数据类型 | 数据数量 | 闲聊 | 单轮闲聊 | 1509 | 商品推荐 | 初版推荐数据 | 400 | 多轮闲聊 | 181 | 多商品-商品推荐-单轮 | 400 | 直播间优惠 | 直播间优惠-有优惠 | 278 | 多商品-商品推荐-多轮 | 249 | 直播间优惠-无优惠 | 121 | 商品查询 | 多商品-商品查询-单轮 | 400 | 商品问答 | 单商品问答-可回答 | 1678 | 多商品-商品查询-多轮 | 354 | 单商品问答-拒答 | 1249 | 无主语商品问答 | 无主语商品问答-单轮 | 400 | 多商品问答-多轮 | 400 | 无主语商品问答-多轮 | 398 | 多商品问答-单轮 | 399 | 总计 | 所有数据 | 8416 |
▐互动模式区分
用户弹幕 | 弹幕版 | tts版 | 直播间智能马桶优惠吗 | 17号链接原价9999现在券后2199,45号链接券后2799,31号链接券后2599,活动力度很大哦,现在入手很划算呢。 | 看到有宝宝问智能马桶的优惠,十七号链接原价九千九百九十九,现在券后只要两千一百九十九,四十五号链接券后两千七百九十九,三十一号链接券后两千五百九十九,现在不买可能就没活动了哦。那主播继续讲啦 |
过去一年我们搭建了数字人直播间的弹幕问答框架,从最初的商品问答逐渐扩展到能够覆盖直播间80%+有效意图的阶段,后续为了更好的服务数字人直播用户,我们会以提升整体问答满意度效果为指标,并结合多模态融合、千人千面等产品方向,为用户呈现一个有问必答,回答质量在某些维度甚至能优于真人的智能互动: 千人千面的专属直播间,对每个用户提供个性化的贴心服务,能够发挥AI相对真人的优势;基于用户画像分析用户的偏好,让用户感受到VIP级的待遇。 区别于其他形式的互动问答,数字人直播间的弹幕跟直播间画面和数字人文案是强相关的;因此将文案信息和直播间caption信息融合,获取用户进入直播间视角的信息,对于帮助理解用户query预期有较大帮助。 由于直播场景下涉及大量底层数据,如何有效的组织和存储相关数据,并做到知识冲突检测等很重要。因此后续我们将探索引入知识图谱,基于GraphRAG的技术方案实验,提升问答的准确性。 问答展示形态和多模态信息融合,在真人对直播间问题给出回复时往往也会展示产品细节,因此我们希望从多模态素材理解出发,问答过程中使用和展示合适的素材,对于扩展有效信息输入和直播间形态也有较大帮助。 从真人直播理解出发,沉淀真人主播如何给出的弹幕回复框架和逻辑,以及其他主动交互形态,解决用户问题从而促成单用户的购买转换。
|