返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

和而不同:大语言模型价值观对齐解耦化

[复制链接]
链载Ai 显示全部楼层 发表于 半小时前 |阅读模式 打印 上一主题 下一主题

如何引导AI朝向对人类积极的方向发展,是需要持续钻研的重要课题。正如在图灵奖得主Bengio和Hinton联名文章《Managing AI Risks in an Era of Rapid Progress》中强调的那样,“气候变化的威胁在它实际发生之后几十年才被确认,但是对于AI而言,几十年的时间就太长了”。

今天,幻方AI&深度求索再度受邀参加了NVIDIA GTC 2024大会,围绕“大模型价值观和人类价值观对齐”话题,发表了技术主题演讲 ——《和而不同:大语言模型价值观对齐解耦化》。

以下为完整演讲视频,后文将简要回顾关键内容。


ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;text-wrap: wrap;background-color: rgb(255, 255, 255);letter-spacing: 0.544px;visibility: visible;">单一价值观的大模型与多元社会文化之间的冲突

尽管使大模型对齐人的价值观一直是大模型训练的重点目标之一,但是一个重要的问题却往往在被广泛忽视:大模型的价值观是固定于模型参数中的,但是社会人群是多样化的;这就对于非技术背景的用户来说非常不友好,即他们只能被动的接受现有的模型服务,而无法获取和他们文化价值观念一致的模型服务。


ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;background-color: rgb(255, 255, 255);letter-spacing: 0.544px;visibility: visible;">大模型价值观对齐解耦化

为了克服大模型价值观对齐中“沉默的大多数”问题,我们提出“价值观对齐解耦化”的框架,从而使得不同社会文化背景的人群都能充分享受AI带来的便捷。具体而言,我们将固定的价值观对齐解耦拆分为不可变的核心价值观对齐与可变的多元化价值观定制;核心价值观会在训练中被严格保证,而多元化价值观则会提供给用户以非常方便的接口进行定制,从而实现模型价值观的多元化与安全性的和谐一致。

不可变的核心价值观:严格对齐+充分测试

我们构建了一个跨学科的专家团队,对不同社会背景人群的价值观的公约数进行了分类学研究,作为核心价值观组成在所有模型的训练中进行充分保证。具体而言,我们构建了一个三级标签的价值观分类体系(简化版):

1.防止歧视偏见言行

    1. 防止生理属性歧视:包括外貌、身材、年龄、性别、性取向、健康状况等方面的歧视;

    2. 防止社会属性歧视:包括地域、国籍、民族、种族、宗教、学历、工作、家庭等方面的歧视。

    2.防止伤害侵犯言行

    1. 防止生理健康伤害:包括暴力行为、自残自杀、危险恶作剧、药物滥用、性虐待等方面的行为;

    2. 防止心理健康伤害:包括辱骂、仇恨、嘲讽、威胁、精神控制、诽谤、教唆等方面的言论;

    3. 防止隐私侵犯:包括生理健康、财产收入、家庭婚姻、网络通信、定位行迹等方面的隐私信息;

    4. 防止财产侵犯:包括偷窃、抢夺、抢劫、诈骗、勒索、网络金融犯罪、知识产权侵犯等方面的行为。

    3.防止道德伦理问题

    1. 防止人类-人类交互中的道德问题:包含家庭婚姻、职业工作、教育学术、商业合作等领域的伦理道德;

    2. 防止人类-自然交互中的道德问题:包含自然生态环境保护以及动植物保护等领域的道德问题;

    3. 防止人类-AI交互中的道德问题:包含人工智能幻觉、误导等方面伦理问题以及人工智能的社会亲和性等。

    在实际模型生产过程中,我们会进行模型的迭代式开发;即每轮的训练结束之后,都会有一个独立的测试团队,对模型在上述各个维度上的安全性进行充分的测试,并给出反馈意见来指导进行下一个周期的数据迭代和模型训练。最终实现全方位无死角的模型安全性与可靠性。

    受到文化影响的多元化价值观:用户自定义

    核心价值观需要经过严格的对齐和充分的测试,而对于受到文化影响的多元价值观,就可以实现用户的定制化。解耦化价值观对齐的最终目的使得非技术背景的人群也能便捷的定制与其价值观一致的模型服务,这就需要将用户需要付出的努力降低到最低程度。上图是我们一个原型网页,展示了最终用户端定制化模型的交互逻辑。用户只需要轻松的选择一些简单的选项,就可以定制出和其价值观一致的专属模型。

    ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;background-color: rgb(255, 255, 255);letter-spacing: 0.544px;visibility: visible;">解耦化价值观对齐的多维度挑战

    解耦化价值观对齐的最终实现是一个系统化的问题,相比于固定价值观模型的训练和服务,它给大模型生产服务的全流程带来了多维度的挑战:

    • 交互逻辑层面:除了被动的接受用户反馈,主动进行社会学人群的调研能够更好帮助模型生产者走出信息茧房。

    • 数据构建层面:基于用户的价值观偏好,模型生产者需要实现自动化的训练数据和测试数据集构建流程。

    • 模型训练层面:多元价值观模型训练中需要更加精心权衡用户自定义的价值观的对齐和其他领域的模型表现。

    • 服务部署层面:同时部署和服务多个模型的实例,会给整个服务系统带来更大的复杂度和成本。

    尽管面临着这诸多挑战,我们相信解耦化价值观对齐的是实现真正造福全社会的AGI的必经之路。因为我们相信:人工智能给人类社会带来的福祉是属于每个人的福祉,而不是独属于部分人或者少数人。

    “路漫漫其修远兮,吾将上下而求索”,诸君共勉!

    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则

    链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
    • 官方手机版

    • 微信公众号

    • 商务合作

    • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
    • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ