ingFang SC";font-weight: bold;color: rgb(255, 66, 0);visibility: visible;box-sizing: border-box !important;overflow-wrap: break-word !important;"> 本专题是我们打造智能数字人的部分实践总结。我们将探讨六大核心环节:LLM文案生产赋予数字人思考和内容生成能力,如同其“大脑”;LLM互动能力则聚焦对话逻辑与拟人化交流,是实现自然交互的关键;TTS(语音合成)技术负责将文字转化为富含情感、个性化的“声音”;形象驱动技术让语音与表情、口型、肢体动作精准同步,塑造逼真视觉形象;音视频工程解决实时渲染、低延迟传输与高质量画面输出的技术挑战;最后,服务端工程构建稳定、弹性、高并发的后端支撑平台,确保数字人服务高效稳定运行。欢迎大家一起交流进步。第一篇:《淘宝直播数字人LLM推理优化:模型蒸馏与路径压缩实践》第四篇:《淘宝直播数字人:TTS技术语音合成技术》 ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.544px;box-sizing: border-box !important;overflow-wrap: break-word !important;height: auto !important;visibility: visible !important;width: 114px !important;"/> ingFang SC", system-ui, -apple-system, "system-ui", "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 17px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: 0.544px;orphans: 2;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;text-align: center;visibility: visible;box-sizing: border-box !important;overflow-wrap: break-word !important;">文章价值与思路说明- 数字人核心技术与链路分享淘宝直播数字人项目各个阶段过程与思考
- 希望能帮助到新的创新,给大家带来一些小的思路和启发
ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.544px;box-sizing: border-box !important;overflow-wrap: break-word !important;height: auto !important;visibility: visible !important;width: 114px !important;"/>ingFang SC", system-ui, -apple-system, "system-ui", "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 17px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: 0.544px;orphans: 2;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;text-align: center;visibility: visible;box-sizing: border-box !important;overflow-wrap: break-word !important;">业务背景与价值ingFang SC", system-ui, -apple-system, "system-ui", "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;letter-spacing: 0.544px;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;clear: both;min-height: 1em;background-color: rgb(255, 255, 255);line-height: 1.75em;visibility: visible;">ingFang SC", -apple-system-font, system-ui, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 17px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;letter-spacing: 1px;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;visibility: visible;">▐ingFang SC", -apple-system-font, system-ui, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 17px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;letter-spacing: 1px;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;visibility: visible;">数字人直播- 非播时间段空窗:真实主播开播时长有限,我们通过主播形象克隆及云端开播,实现非播时间段自助开播(凌晨、主播休息时间段、24h)
- 主播运营讲解成本高:通过自研LLM大模型自动生成商品讲解文案,降低主播商品讲解成本
- 直播间无法同时回复大量评论:通过自研LLM大模型对话能力,实现弹幕实时互动
- 直播间商品展示操作复杂:通过自动化展示商品物料、同步弹商品卡&特效等能力,完善商品展示,促成交转化
ingFang SC", -apple-system-font, system-ui, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 17px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;letter-spacing: 1px;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;visibility: visible;">▐ingFang SC", -apple-system-font, system-ui, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 17px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;letter-spacing: 1px;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;visibility: visible;">公益&助农偏远地区招聘优质主播比较困难,且难以负担主播的昂贵费用。数字人直播则不受地域、环境限制,我们可以提供官方形象及开播方案,实现低成本开播。- 自营商家:天猫超市,喵速达,淘宝秒杀,百亿补贴,淘宝买菜,天天热卖,淘工厂等
- 通过提供24小时不间断的直播服务能力,淘宝直播数字人为商家提供更高效、更经济的解决方案。
如何开始一场直播,接下来剖析下直播过程中发生了什么、有哪些环节以及为什么会有这些环节。以淘宝直播为例,在直播的过程主要包括了音视频采集、渲染/混音、编码、传输/协议、GRTN、播放器这几个主要的环节。为了方便清晰的展示出这些链路,以一张大图呈现如下,其中同时注明了每个环节存在的必要性:经过上一节可以大致了解直播的基本流程,众所周知程序员喜欢刨根问底,接下来我们把数据拆分成一个字节,观察一个字节在整个过程中是如何流转的。这里拆分了音频和视频两个链路来介绍音频和视频是如何流转的,并且标明了其在每个环节的数据状态:LiveCopilot包含了渲染+音视频+AI工程,负责AI能力(LLM、TTS、唇部驱动等)在直播场景落地。其围绕 AI工程、音视频渲染、直播与短视频 三大核心能力建设。(因部分内容因涉及内部模块,特此进行模糊处理,望见谅)因为篇幅原因,主要列出和核心思路及实现方式,欢迎沟通交流!通过端云结合降低数字人整体成本,已线上落地,并有效降低了整体成本。通过拉取商详素材,结合前景分镜视频,有效的丰富了直播讲解内容。(因部分内容因涉及内部模块,特此进行模糊处理,望见谅)- 简单、再简单:减少步骤(哪怕一个点击)、减少功能文档
- 数字分身&客服:专属人设大模型,让多个一样的你同时直播、交流!(我们正在做)
- 帮助残疾人直播:帮助聋哑人讲话,表达自己;帮助残障人士开播!(我们正在做)
- 千人千面:让每个人拥有一个专属数字人助理,有颜声音甜,陪你讲话、聊天、答疑!(我们正在做)
- 教育普惠:教师人设大模型+数字人,让每个孩子拥有专属老师,共享普惠教育!
- 数字记忆:克隆自己、亲人的人设、声音、形象,保留一份永久的分身和记忆,留给自己与儿女!可以聊天、可以述说,可以唠家常
|