微信扫码
添加专属顾问
我要投稿
如何引导AI朝向对人类积极的方向发展,是需要持续钻研的重要课题。正如在图灵奖得主Bengio和Hinton联名文章《Managing AI Risks in an Era of Rapid Progress》中强调的那样,“气候变化的威胁在它实际发生之后几十年才被确认,但是对于AI而言,几十年的时间就太长了”。
今天,幻方AI&深度求索再度受邀参加了NVIDIA GTC 2024大会,围绕“大模型价值观和人类价值观对齐”话题,发表了技术主题演讲 ——《和而不同:大语言模型价值观对齐解耦化》。
以下为完整演讲视频,后文将简要回顾关键内容。
尽管使大模型对齐人的价值观一直是大模型训练的重点目标之一,但是一个重要的问题却往往在被广泛忽视:大模型的价值观是固定于模型参数中的,但是社会人群是多样化的;这就对于非技术背景的用户来说非常不友好,即他们只能被动的接受现有的模型服务,而无法获取和他们文化价值观念一致的模型服务。
为了克服大模型价值观对齐中“沉默的大多数”问题,我们提出“价值观对齐解耦化”的框架,从而使得不同社会文化背景的人群都能充分享受AI带来的便捷。具体而言,我们将固定的价值观对齐解耦拆分为不可变的核心价值观对齐与可变的多元化价值观定制;核心价值观会在训练中被严格保证,而多元化价值观则会提供给用户以非常方便的接口进行定制,从而实现模型价值观的多元化与安全性的和谐一致。
我们构建了一个跨学科的专家团队,对不同社会背景人群的价值观的公约数进行了分类学研究,作为核心价值观组成在所有模型的训练中进行充分保证。具体而言,我们构建了一个三级标签的价值观分类体系(简化版):
1.防止歧视偏见言行
防止生理属性歧视:包括外貌、身材、年龄、性别、性取向、健康状况等方面的歧视;
防止社会属性歧视:包括地域、国籍、民族、种族、宗教、学历、工作、家庭等方面的歧视。
2.防止伤害侵犯言行
防止生理健康伤害:包括暴力行为、自残自杀、危险恶作剧、药物滥用、性虐待等方面的行为;
防止心理健康伤害:包括辱骂、仇恨、嘲讽、威胁、精神控制、诽谤、教唆等方面的言论;
防止隐私侵犯:包括生理健康、财产收入、家庭婚姻、网络通信、定位行迹等方面的隐私信息;
防止财产侵犯:包括偷窃、抢夺、抢劫、诈骗、勒索、网络金融犯罪、知识产权侵犯等方面的行为。
3.防止道德伦理问题
防止人类-人类交互中的道德问题:包含家庭婚姻、职业工作、教育学术、商业合作等领域的伦理道德;
防止人类-自然交互中的道德问题:包含自然生态环境保护以及动植物保护等领域的道德问题;
防止人类-AI交互中的道德问题:包含人工智能幻觉、误导等方面伦理问题以及人工智能的社会亲和性等。
在实际模型生产过程中,我们会进行模型的迭代式开发;即每轮的训练结束之后,都会有一个独立的测试团队,对模型在上述各个维度上的安全性进行充分的测试,并给出反馈意见来指导进行下一个周期的数据迭代和模型训练。最终实现全方位无死角的模型安全性与可靠性。
解耦化价值观对齐的最终实现是一个系统化的问题,相比于固定价值观模型的训练和服务,它给大模型生产服务的全流程带来了多维度的挑战:
交互逻辑层面:除了被动的接受用户反馈,主动进行社会学人群的调研能够更好帮助模型生产者走出信息茧房。
数据构建层面:基于用户的价值观偏好,模型生产者需要实现自动化的训练数据和测试数据集构建流程。
模型训练层面:多元价值观模型训练中需要更加精心权衡用户自定义的价值观的对齐和其他领域的模型表现。
服务部署层面:同时部署和服务多个模型的实例,会给整个服务系统带来更大的复杂度和成本。
尽管面临着这诸多挑战,我们相信解耦化价值观对齐的是实现真正造福全社会的AGI的必经之路。因为我们相信:人工智能给人类社会带来的福祉是属于每个人的福祉,而不是独属于部分人或者少数人。
“路漫漫其修远兮,吾将上下而求索”,诸君共勉!
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-02-01
2025-01-01
2024-08-13
2025-02-04
2024-07-25
2024-04-25
2024-06-13
2024-09-23
2024-08-21
2024-04-26
2025-03-19
2025-03-19
2025-03-19
2025-03-19
2025-03-18
2025-03-18
2025-03-18
2025-03-18