自成立以来,网易伏羲不断推陈出新,积极探索前沿技术和应用场景,实现了游戏AI 领域的多项创新技术突破,推出了基于照片、文字的 AI 捏脸、智能 NPC、剧组模式、语音交互式捏脸和语音 AI 队友等多个行业首创的AI 应用。通过将 AI 技术融入游戏系统的各个层面,网易伏羲成功助力《逆水寒》手游、《永劫无间》手游等游戏打造多项创新玩法,极大地提升了玩家的游戏体验。
近期,网易伏羲助力《永劫无间》手游推出全新的游戏 Copilot——“语音 AI 队友”,该玩法一经推出即受到玩家的高度评价,相关用户生成内容迅速登上抖音和 B 站热门榜单。
为了满足玩家对于游戏互动性和情绪价值的需求,《永劫无间》手游推出了一种多模态实时交互的语音 AI 队友。AI 队友能够在战斗中自主跑图、执行战术动作,并根据玩家指令汇报战况。此外,它还能与玩家进行自然对话,提供情感支持。对于新手玩家,该语音 AI 队友还具备教学引导功能,可以帮助他们更快地熟悉游戏机制。
(视频来源于网络)
在《永劫无间》手游中设计的 AI 队友 Agent 能够综合处理游戏环境中的状态变化和玩家输入的语音信息。基于对当前环境状况的认知、决策能力,以及利用游戏知识库与战斗记忆,该 AI 队友能够做出合理的行动决策并给予相应的语音反馈。
在听得懂、能说话的基础上,我们给 AI 队友设计了非常丰富的人设选项,比如彩虹屁萌妹、温柔体贴御姐以及温暖深情暖男等等。这些具有鲜明个性的 AI 队友,不仅可以和玩家产生复杂的互动关系,还可以根据不同的游戏情境展现出其独特的性格特点,进一步增强游戏的沉浸感和互动感。比如上图中展示的,一个玩家在玩的过程中通过和不同 AI 队友的交互体验,画出了一个关系图。
作为游戏的陪玩或队友,对于游戏的理解需要非常到位,对于问到游戏相关内容时,要做出非常好的回答。为了实现 AI 队友的教学问答功能,我们构建了一个强大的知识库系统,该系统包括游戏的静态知识(如规则和机制)和动态知识(如赛事信息)。当玩家提出问题时,AI 会通过 embedding 模型将问题转化为向量,并在向量库中搜索最匹配的答案。如果答案不明确,则会利用 RAG(检索增强生成)和更高级的大语言模型进行进一步的检索和推理,以确保提供准确的回答。
AI 队友还必须拥有基本的游戏执行能力。当玩家发出如“集火胡桃”这样的指令时,系统首先在预处理模块中解析并理解该指令的意图。识别出意图后,系统将“集火”这一行为类型和“胡桃”这一目标转化为状态信息,并将其作为战斗模块的输入。最终,基于强化学习的战斗模型会根据这些输入信息做出相应的行动决策,从而执行玩家的指令,做出集火胡桃的动作在客户端表现出来。
基于上述介绍,可以看到 AI 队友系统具备多种能力,包括理解语音、自然对话、展现个性以及执行任务等,因此它是一个多智能体系统,类似于人类大脑中不同区域分工明确且协同工作的机制。行业中已有一些成熟的多智能体框架,如 MetaGPT 和 AutoGEN 等,支持复杂系统的开发与应用。
下面以一个玩家制作的视频来回顾一下 AI 队友实现的能力。在做 Agent 设计和落地时,常会遇到场景适配的问题,比如语音识别,需要适配环境噪音、口音等问题。我们是如何解决这些问题的呢?这就引入了下一部分内容——AOP 框架。
03
Agent能力迭代- AOP 数据闭环
AOP(Agent-Oriented-Programming,面向智能体编程) 是网易伏羲设计的一套全新的编程范式,其核心价值在于为开发者对接智能体(包括 AI 和人),提供统一范式的接口和服务,并自动构建数据闭环让智能体具备自主进化能力。开发者可通过 AOP 使用伏羲有灵机器人平台预置的公共智能体能力,包括 ChatGPT、Midjourney 等预训练模型,以及数据标注、美术制作、工程机械操控等众包能力,也可针对行业细分场景定制化构建智能体应用。
在游戏场景下,除了实时互动的语音 AI 队友,我们在音频内容生产上也做了一定工作。游戏场景下的音频内容,主要包含音乐、音效、语音三个方面。游戏音乐,包括背景音乐、剧情、战斗和关卡中的音乐等等。音效包括各种各样的声音效果,像环境音效、动作音效等等,例如法术释放、技能特效、爆炸声等,完美的音效设计可以给玩家带来更好的沉浸感和互动体验。游戏人物语音是指游戏角色所发出的人声,常见的有对话语音、战斗语音,语音设计师可以根据角色的角色设定、角色性格、场景和情节需求,来创造适合的语音内容和表达方式。在传统的游戏生产链路中,这三部分都是人工完成的,耗费人力和时间很多,随着 AI 生成式技术的兴起,我们尝试用技术去帮助游戏音频设计师更快更好地生产内容。下面,将以人物语音为例,介绍我们在游戏里面的一些落地案例。