链载Ai

标题: 淘宝直播数字人:音视频 [打印本页]

作者: 链载Ai    时间: 前天 18:50
标题: 淘宝直播数字人:音视频

ingFang SC";font-weight: bold;color: rgb(255, 66, 0);visibility: visible;box-sizing: border-box !important;overflow-wrap: break-word !important;">


本专题是我们打造智能数字人的部分实践总结。我们将探讨六大核心环节:LLM文案生产赋予数字人思考和内容生成能力,如同其“大脑”;LLM互动能力则聚焦对话逻辑与拟人化交流,是实现自然交互的关键;TTS(语音合成)技术负责将文字转化为富含情感、个性化的“声音”;形象驱动技术让语音与表情、口型、肢体动作精准同步,塑造逼真视觉形象;音视频工程解决实时渲染、低延迟传输与高质量画面输出的技术挑战;最后,服务端工程构建稳定、弹性、高并发的后端支撑平台,确保数字人服务高效稳定运行。欢迎大家一起交流进步。

第一篇:《淘宝直播数字人LLM推理优化:模型蒸馏与路径压缩实践》
第二篇:《淘宝直播数字人:LLM文案生成技术》
第三篇:《淘宝直播数字人:LLM弹幕互动技术》
第四篇:《淘宝直播数字人:TTS技术语音合成技术》
第五篇:《淘宝直播数字人:形象技术》

图片ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.544px;box-sizing: border-box !important;overflow-wrap: break-word !important;height: auto !important;visibility: visible !important;width: 114px !important;"/>

ingFang SC", system-ui, -apple-system, "system-ui", "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 17px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: 0.544px;orphans: 2;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;text-align: center;visibility: visible;box-sizing: border-box !important;overflow-wrap: break-word !important;">文章价值与思路说明


本文给大家带来的价值:

文章分享思路:

带着问题出发:

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.544px;box-sizing: border-box !important;overflow-wrap: break-word !important;height: auto !important;visibility: visible !important;width: 114px !important;"/>

ingFang SC", system-ui, -apple-system, "system-ui", "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 17px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: 0.544px;orphans: 2;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;text-align: center;visibility: visible;box-sizing: border-box !important;overflow-wrap: break-word !important;">业务背景与价值


ingFang SC", system-ui, -apple-system, "system-ui", "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;letter-spacing: 0.544px;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;clear: both;min-height: 1em;background-color: rgb(255, 255, 255);line-height: 1.75em;visibility: visible;">ingFang SC", -apple-system-font, system-ui, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 17px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;letter-spacing: 1px;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;visibility: visible;">▐ingFang SC", -apple-system-font, system-ui, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 17px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;letter-spacing: 1px;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;visibility: visible;">数字人直播


商家核心痛点问题:

ingFang SC", -apple-system-font, system-ui, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 17px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;letter-spacing: 1px;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;visibility: visible;">▐ingFang SC", -apple-system-font, system-ui, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 17px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;letter-spacing: 1px;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;visibility: visible;">公益&助农

偏远地区招聘优质主播比较困难,且难以负担主播的昂贵费用。数字人直播则不受地域、环境限制,我们可以提供官方形象及开播方案,实现低成本开播。

业务服务对象:

目前已成功服务多个行业:

核心链路总览




工程链路


问题:
AI与工程如何结合,如何与音视频技术结合?

直播核心链路+一个字节的旅行

如何开始一场直播,接下来剖析下直播过程中发生了什么、有哪些环节以及为什么会有这些环节。
以淘宝直播为例,在直播的过程主要包括了音视频采集、渲染/混音、编码、传输/协议、GRTN、播放器这几个主要的环节。为了方便清晰的展示出这些链路,以一张大图呈现如下,其中同时注明了每个环节存在的必要性:


经过上一节可以大致了解直播的基本流程,众所周知程序员喜欢刨根问底,接下来我们把数据拆分成一个字节,观察一个字节在整个过程中是如何流转的。这里拆分了音频和视频两个链路来介绍音频和视频是如何流转的,并且标明了其在每个环节的数据状态:


整体架构与流程

LiveCopilot包含了渲染+音视频+AI工程,负责AI能力(LLM、TTS、唇部驱动等)在直播场景落地。其围绕 AI工程、音视频渲染、直播与短视频 三大核心能力建设。(因部分内容因涉及内部模块,特此进行模糊处理,望见谅)
架构图:

降成本与创新

本节主要分享降成本与技术创新的一些思路与路径
因为篇幅原因,主要列出和核心思路及实现方式,欢迎沟通交流!

降成本(端云结合)
通过端云结合降低数字人整体成本,已线上落地,并有效降低了整体成本。

TTS拆分
通过TTS拆分提升TTS线上效果,降低机器成本

素材与文案结合
通过拉取商详素材,结合前景分镜视频,有效的丰富了直播讲解内容。(因部分内容因涉及内部模块,特此进行模糊处理,望见谅)
更多....(欢迎找我们讨论交流,不一一列举)

数据与产品化


产品化思考与小方法



核心思路
小方法


核心思路
小方法


核心思路
小方法


核心思路
小方法
挑战


应用场景展望







欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5