我要投稿

和而不同：大语言模型价值观对齐解耦化

发布日期：2024-05-08 04:44:02 浏览次数： 2323 作者：DeepSeek

如何引导AI朝向对人类积极的方向发展，是需要持续钻研的重要课题。正如在图灵奖得主Bengio和Hinton联名文章《Managing AI Risks in an Era of Rapid Progress》中强调的那样，“气候变化的威胁在它实际发生之后几十年才被确认，但是对于AI而言，几十年的时间就太长了”。

今天，幻方AI&深度求索再度受邀参加了NVIDIA GTC 2024大会，围绕“大模型价值观和人类价值观对齐”话题，发表了技术主题演讲 ——《和而不同：大语言模型价值观对齐解耦化》。

以下为完整演讲视频，后文将简要回顾关键内容。

单一价值观的大模型与多元社会文化之间的冲突

尽管使大模型对齐人的价值观一直是大模型训练的重点目标之一，但是一个重要的问题却往往在被广泛忽视：大模型的价值观是固定于模型参数中的，但是社会人群是多样化的；这就对于非技术背景的用户来说非常不友好，即他们只能被动的接受现有的模型服务，而无法获取和他们文化价值观念一致的模型服务。

大模型价值观对齐解耦化

为了克服大模型价值观对齐中“沉默的大多数”问题，我们提出“价值观对齐解耦化”的框架，从而使得不同社会文化背景的人群都能充分享受AI带来的便捷。具体而言，我们将固定的价值观对齐解耦拆分为不可变的核心价值观对齐与可变的多元化价值观定制；核心价值观会在训练中被严格保证，而多元化价值观则会提供给用户以非常方便的接口进行定制，从而实现模型价值观的多元化与安全性的和谐一致。

不可变的核心价值观：严格对齐+充分测试

我们构建了一个跨学科的专家团队，对不同社会背景人群的价值观的公约数进行了分类学研究，作为核心价值观组成在所有模型的训练中进行充分保证。具体而言，我们构建了一个三级标签的价值观分类体系（简化版）：

1.防止歧视偏见言行

防止生理属性歧视：包括外貌、身材、年龄、性别、性取向、健康状况等方面的歧视；
防止社会属性歧视：包括地域、国籍、民族、种族、宗教、学历、工作、家庭等方面的歧视。

2.防止伤害侵犯言行

防止生理健康伤害：包括暴力行为、自残自杀、危险恶作剧、药物滥用、性虐待等方面的行为；
防止心理健康伤害：包括辱骂、仇恨、嘲讽、威胁、精神控制、诽谤、教唆等方面的言论；
防止隐私侵犯：包括生理健康、财产收入、家庭婚姻、网络通信、定位行迹等方面的隐私信息；
防止财产侵犯：包括偷窃、抢夺、抢劫、诈骗、勒索、网络金融犯罪、知识产权侵犯等方面的行为。

3.防止道德伦理问题

防止人类-人类交互中的道德问题：包含家庭婚姻、职业工作、教育学术、商业合作等领域的伦理道德；
防止人类-自然交互中的道德问题：包含自然生态环境保护以及动植物保护等领域的道德问题；
防止人类-AI交互中的道德问题：包含人工智能幻觉、误导等方面伦理问题以及人工智能的社会亲和性等。

在实际模型生产过程中，我们会进行模型的迭代式开发；即每轮的训练结束之后，都会有一个独立的测试团队，对模型在上述各个维度上的安全性进行充分的测试，并给出反馈意见来指导进行下一个周期的数据迭代和模型训练。最终实现全方位无死角的模型安全性与可靠性。

受到文化影响的多元化价值观：用户自定义

核心价值观需要经过严格的对齐和充分的测试，而对于受到文化影响的多元价值观，就可以实现用户的定制化。解耦化价值观对齐的最终目的使得非技术背景的人群也能便捷的定制与其价值观一致的模型服务，这就需要将用户需要付出的努力降低到最低程度。上图是我们一个原型网页，展示了最终用户端定制化模型的交互逻辑。用户只需要轻松的选择一些简单的选项，就可以定制出和其价值观一致的专属模型。

解耦化价值观对齐的多维度挑战

解耦化价值观对齐的最终实现是一个系统化的问题，相比于固定价值观模型的训练和服务，它给大模型生产服务的全流程带来了多维度的挑战：