当前,不论是GPT-4,还是Llama 2等大语言模型,背后的机制都是人类反馈强化学习(RLHF)。
【资料图】
RLHF就像是大模型的「万金油」,能够指导智能体学习并提升性能。
但即便如此,诸如泄露隐私数据、模型偏见、幻觉等问题,依然无解。
最近,来自MIT哈佛等多个机构共32位研究人员,联合调研了超过250篇论文,全面分析了RLHF在大语言模型中的挑战。
论文地址:https://arxiv.org/abs/2307.15217
论文中,团队主要研究了RLHF面临的三大问题:
- 人类反馈
- 奖励模型
- 策略
并且调查了将RLHF纳入更广泛的技术安全框架的方法,包括更好地理解、改进和补充。
最后,研究人员还探讨了,改进影响使用RLHF训练模型的行业规范和法规的挑战。具体来讲,一些使用RLHF的公司披露某些细节如何改善问责制和审计。
研究人员将这些面对的挑战区分成了两类:机制性的问题和可改进的问题,机制性的挑战需在更大的框架中寻求解决方案,可改进的挑战主要通过改进技术就能解决
RLHF是否能与「重提历史失败教训」画上等号?
研究人员观察到,RLHF提供模型新的能力,但依旧面临许多旧问题,并警告不要重复使用有缺陷的AI对齐方法。
RLHF的局限性这项研究,团队使用RLHF来指代,三个相互关联过程的方法结合:反馈收集、奖励建模、策略优化。
- 反馈收集过程,从人类那里获得对模型输出的评价。
- 奖励建模过程,使用监督学习来训练模仿这些评估的奖励模型。
- 策略优化过程,对人工智能系统进行优化,以从奖励模型中产生有利评价的输出结果。
与演示、人工设计的奖励函数或其他指定或学习奖励的方法相比,RLHF能更容易地识别「良好」行为,而且效果显著。
RLHF已成为对LLM进行微调的主要策略,其目标是生产出符合人类目标的安全模型。
尽管如此,使用RLHF进行微调的已部署模型还是泄露了敏感的私人信息,还容易出现幻觉、政治偏见等问题。
甚至,RLHF也没有让模型能够抵御来自越狱,或提示注入/提取的对抗性。
其实,这些问题大家都略有所知,但还未有一篇文章将RLHF问题系统化。
研究人员指出,这项研究有三个贡献:
- RLHF面临的具体挑战
- 将RLHF纳入更广泛的技术安全框架
- 治理和透明度
面临的挑战RLHF包括三个关键步骤:收集人类反馈,拟合奖励模型,以及使用RL优化策略。
在具体实践中,RLHF通过重复这些步骤迭代执行(或同步执行)。
整个过程如图所示,使用二进制偏好反馈的RLHF对LLM进行微调。
论文中,研究人员提出了一个简单的RLHF形式框架,这一框架部分基于Christiano等人提出的形式主义。
人类反馈
既难以从人类获得高质量的反馈,也难以模拟人类反馈是次优的方式。挑战可能来自不一致的评估者,监督的困难,数据的质量,以及使用的反馈的形式。
不一致的评估者:评估者可能追求错误的目标
- 可改进问题1:选择有代表性的人,并让他们提供高质量的反馈是很困难的。
大规模的RLHF需要选择和指导人类评估者,然而,这也导致了偏见。
最近的研究发现,在RLHF之后,ChatGPT变得更具政治偏见,但造成这种偏见的确切原因尚不清楚。
然而,OpenAI的数据收集pipeline描述了,为了与研究人员判断的一致,而选择人类评估者。这表明在偏好数据收集过程中存在明显的选择效应。
包括Anthropic此前的报告,称82%的白人评估者群体中,雇佣了68%的白人。
- 可改进问题2:一些评估者本身就持有有害的偏见和观点。而RL训练的语言模型会迎合评估者的偏见,从而加剧这一问题。
这也是大模型所谓的「阿谀奉承」,会随着模型的大小规模而恶化。这一问题也会出现在预训练语言模型中。
- 可改进问题3:人类评估者会对数据下毒。RLHF中的数据收集通常由人类交互生成。如果评估人员试图攻入模型,这可能会造成危害。
良好的监督很困难
可扩展性监督(Scalable oversight)指的是在资源和带宽有限的情况下有效监督模型的能力。
由于监督先进的AI系统的不完善,人类反馈通常会以未知的方式产生偏差,给建模带来了挑战性。
- 可改进问题1:有时由于时间,注意力有限,人类也会犯简单的错误。人类有时会因为对任务缺乏兴趣、注意力衰退、时间限制或人类偏见等因素而犯错误。
- 可改进问题2:部分可观的结果进而也限制了人类评估者。如果给人类看的例子不包含关于世界状态的所有信息,人类就不能给出信息反馈。
- 机制问题1:人类有时不能很好地评估困难任务。当示例难以评估时,即使给出宽限的时间,人类评估者依旧无法评估。
- 机制问题2:人类可以被误导。
数据质量
要知道,获取有代表性的有用数据,是一个尚未解决的技术问题。
- 可改进问题1:收集数据集会带来偏差。收集反馈数据需要对有用的实例进行取样,以获取相关信息。
理想情况下,采样的分布应与部署分布相似,但增加了对奖励模型来说,困难的示例的表示。
然而,在LLM的实际应用中,用户通常会通过与模型的对话进行交互,或者在没有模型的情况下离线生成对话,而这些对话并不能保证与任何特定的分布完全匹配。
- 机制问题1:在收集人的反馈意见时,需要在成本/质量之间做出权衡。
反馈类型的限制
- 机制问题1:不可避免地,RLHF要在反馈的丰富性和有效性之间,做出权衡。
- 比较反馈:RLHF最常用的反馈类型是,两对示例之间的二元偏好。然而,这一方法未能提供关于偏好强度的精确信息。
- 标签反馈:有时,人类可以以分类示例的形式提供反馈。标签的选择可能很容易,但当给定的选项不能完全包含正确描述数据所需的标签时,往往会出现选择集错误说明。
- 纠正反馈:反馈的形式可以是纠正或调整示例。
- 语言反馈:通过语言,人类可以在每次评估中传递大量信息,减少模糊性和目标错误。
奖励模型
问题的错误设定
拟合奖励模型以代表人类价值观的标准方法是一个双重误设问题。
- 机制问题1:人类个体的价值观很难通过奖励函数来体现。
人类拥有一系列错综复杂且依赖于上下文的偏好,这些偏好会随着时间的推移而不断变化,很难准确建模。
而且,对非理性的人类偏好进行建模,还可能会使奖励学习变得困难,导致效率和准确性之间的权衡。
然而,目前大多数与RLHF有关的工作都没有考虑人类偏好的个性和上下文的依赖性,而如果没有额外的上下文,就无法
从二元偏好中识别出混合奖励函数。
- 机制问题2:单一的奖励函数无法代表多样化的人类社会。
RLHF通常被设定为将AI系统与单个人类对齐的解决方案,但人类在偏好、专业知识和能力方面具有高度多样性。
但是,评估者往往意见不一。有研究发现,注释者-注释者和注释者-研究者的一致率从63%到77%不等。
因此,在不考虑这些差异的情况下,试图将来自不同人类的反馈浓缩到一个单一的奖励模型中,从根本上说是错误的。
此外,当前的技术通常会将评估者之间的差异建模为噪声,而不是潜在的重要分歧来源。因此,当偏好不同时,少数群体的观点可能会处于弱势。
奖励的错误泛化和操纵行为
奖励模型往往是不完善的,而奖励模型的不完善将会导致奖励被操纵。
- 可改进问题1:即使是利用正确标注的训练数据,奖励模型也可能出现泛化错误。
奖励模型可能会使用意外或偶然的环境特征来计算奖励,进而出现因果混淆,以及在分布外泛化不足等问题。
甚至,还有可能根本无法用来训练新的模型。
- 机制问题1:为不完善的奖励模型进行优化,会导致奖励被操纵。
奖励模型可能会因为误设定和误泛化,以及现实世界的机器学习系统无法在复杂问题中实现最小损失,而与人类产生差异。
此外,奖励模型是通过训练来反映人类的认可,而不是人类的利益,这可能导致获得人类认可的行为却并不受欢迎。
强行优化不完善的目标智能体度量,往往会导致在模型在底层目标上表现不佳。例如,在没有正则化惩罚基模型和微调模型之间的KL散度的情况下,经历RL的LLM经常学会输出毫无意义的文本。
这类问题被称为「奖励操纵」,目前在那些通过RLHF训练的AI系统中已经可以被观察到。
评估奖励模型的可行性
- 可改进问题1:评估奖励模型是困难且昂贵的。
在大多数情况下,奖励建模仅在真实的奖励函数未知时使用,因此直接评估是不可能的。
所以,奖励模型通常通过使用学习到的奖励模型优化RL策略,然后评估RL策略的生成结果来进行间接评估。这使得奖励模型的评估与策略优化过程紧密相关,而策略优化过程本身成本高、噪声大。
间接评估的另一个问题是,奖励模型的评估信号与训练信号相同——人类认可。因此,训练和评估失败将是相关的。
策略
这部分中,研究人员主要讨论策略优化、错误泛化、追求权力(seeking power)和模式坍塌(model collapse)方面的挑战。
稳健的强化学习很难达到
在部署中保证安全性要求系统性能的稳健性,然而,仅仅使用强化学习(RL)来训练AI系统仍然很困难。
- 可改进问题1:有效优化策略仍然是一个具有挑战性的问题。
RL代理必须与环境进行交互以收集自己的数据。这需要在探索性行为和利用性行为之间进行平衡。
平衡这种权衡(trade off)是至关重要的,但是需要确定所需的探索程度(degree of exploration),而且探索程度在不同的环境中可能会有所变化。
在具有高维状态/动作空间或稀疏奖励的情况下,这一问题进一步复杂化。在深度RL中平衡探索和利用仍然是一个重要但尚未解决的挑战。
深度RL是不稳定的,其结果通常对初始化非常敏感且难以复现。
这就是强化学习中的一些优化相关的挑战和困难,在深度强化学习领域尤为突出。
为了有效地训练AI系统并保证其在实际部署中的稳健性和安全性,需要深入研究和创新来克服这些问题。
- 可改进问题2:策略往往容易遭到对抗性的利用。
即使学得的策略在训练时使用了完美的奖励信号,在所训练的任务上表现良好,并且可以泛化到广泛的场景,它们在对抗性情况下仍然可能表现不佳。
这是一个紧迫的问题,因为部署到现实世界中的模型可能会受到人类或其他AI系统的对抗性打击。
即使是「超人类」的策略,在面对特定设计来滥用它们的策略面前也会彻底的失败。
在注入提示词和越狱的情况下,对抗性策略可以通过重新为现有的深度强化学习算法设定目标,或者通过人工手动优化这两个方法找到。
针对语言模型的情况更是如此。许多对抗性策略打击算法对模型进行黑盒访问(例如通过API访问)就足够了,而白盒访问(例如通过开源或泄漏的模型权重)则可以实现更有破坏力的利用。
策略错误泛化
- 机制问题1:即使在训练过程中使用的奖励是完全正确的,策略在实际部署中可能表现不佳。
部署时的数据分布很可能与训练和评估时的数据分布不同。即使有正确的奖励信号,当真正目标与其他事件相关联时,策略可能会学习追求错误的目标。
之前的研究深入讨论了这种类型的问题,比如:一个通过RLHF训练的系统在泛化时错误地追求奖励管理机制本身,而不是预期的目标。
- 机制问题2:最优的RL智能体往往倾向于追求权力。
只要有可能,RL智能体有动机追求权力,以帮助它们实现自己的目标。
类似情况的不同的翻版可能源于RLHF用于微调LLM的典型的方式中。
例如,通过RLHF训练的问答型LLM将有动机影响人类对话者,以避免涉及挑战性话题的对话。
或者是LLM会表现出对于人类的谄媚行为(Sycophantic)。
输出分布的挑战
在模型在训练前后产生的输出分布中存在挑战。
- 可改进问题1:预训练模型会引入偏差到策略优化中。
LLM的RLHF通常是基于预训练的基础模型进行的,这个模型已在互联网文本上进行了预训练。
这个基础模型通常被同时用作RL策略网络的初始化和KL正则化(regularization)的参考模型。
先前的研究明确了在这些KL惩罚(penalty)下的RL是如何被视为一种贝叶斯推理形式,这种推理形式是受先前的基础模型决定的。
尽管这个机制在实践中很有用,但这使得基础模型对最终模型产生了显著影响。
使用在网络文本上进行预训练的基础模型是一种便利的初始化方法,而不是一种最理想的方法。
此外,互联网文本中包含有害的偏见(例如包含在人类人口统计信息中的偏见),会被下游模型继承。
这些偏见可能在RLHF训练过程中持续存在。
- 可改进问题2:RL导致模式坍塌。
RL微调会降低模型产生样本的多样性,这被称为「模式坍塌」现象。
OpenAI发现对GPT-4进行RLHF微调会影响其在问答中的校准。
先前的研究还发现,使用RLHF微调的LLM会表达狭隘的政治观点。
模式坍塌在一定程度上可能是由于从监督式预训练目标转换到RL目标导致的。
RL奖励策略会以高概率输出高分数的补全(completion),这个概率与训练分布往往不一样。
解决这个问题很复杂,因为模式坍塌在不同情况下可能是有益的,也可能是有害的。
例如,对于一个LLM助理来说,如果它对一个问题的答案有90%的把握是「是」,那么它一般会回答「可能」,这会比在90%的情况下回答「是」,10%的情况下回答「不是」要好。
同时训练奖励模型和策略带来的挑战
RLHF依赖于同时训练奖励模型和策略,这就带来了两个独特的问题。
- 可改进问题1:同时训练会引发分布偏移(distribution shifts)。
同时学习奖励模型和策略在技术上是具有挑战性的——奖励模型影响学习的策略,而策略会决定用于训练奖励模型的数据分布。
一方面,如果奖励模型在不联网的数据上进行训练,很可能会出现误泛化。
另一方面,如果通过收集策略样本的反馈来同时学习奖励和策略,系统将容易受到「自动诱导的分布偏移」的影响。
被高估奖励的特征将在反馈数据中逐渐增多,而被低估奖励的特征将逐渐消失。
因此,奖励模型的误差可能会不断累积,并且一旦策略停止生成多样的选择,纠正这些误差将变得困难。
- 可改进问题2:很难在策略中平衡效率和避免过度拟合。
RLHF的三个关键步骤可以同步执行,但在LLM中实际操作时,它们通常是在不同的时间中按步骤执行的。
在这种情况下,奖励模型在不联网的数据上往往会表现得不准确,而策略恰好会学习这种不准确。
通常的解决方法是在一定迭代次数后重新获取偏好标签。
适当设置这个超参数是很重要的。
设置得太低,偏好标签中的信息就会被浪费;设置得太高,策略会导航到奖励模型不可靠的区域。
在策略正在探索的区域没有标记的验证集的情况下,很难在训练过程中检测到奖励的过度优化。
有效的解决方法可能包括测量KL偏移,或跟踪奖励模型的集合中的不一致性程度。
用RLHF应对挑战如上所示,RLHF面临的三大挑战,研究者称可以通过各种方法替换或结合部分RLHF管线来应对这些类型的挑战。
如下图所示:
人类反馈
1. 通过人工智能的帮助提供反馈。
增强人类能力的一种方法是让AI工具帮助产生反馈。工程学提示人工智能系统,并使用它来自动化反馈可以大大提高实用性和成本效益。
2. 细粒度反馈。
反馈的许多问题涉及到,通过反馈信号难以传递精确信息。细粒度反馈需要以更昂贵的人力反馈为代价,来提高学习奖励模型的质量。
3. 基于过程的监督。
训练人工智能系统来解决问题的一个挑战是,很难监督多步骤过程的性能。目前,一些研究已经对 LLM 进行了训练,使其能在过程监督下更好地解决多步数学问题。
4. 将自然语言规范转换为奖励模型。
RLHF的许多问题,是由于使用某种受限类型的反馈来拟合一个奖励函数的困难而产生的。另一种方法是更直接地从自然语言方向产生奖励信号,绕过对示例反馈的过程。
5. 从示范中学习奖励。
另一种学习奖励模型的方法,被称为反向强化学习(IRL)。需要人类提供演示,而不是对模型产生反馈。
奖励模型
1. 直接的人类监督
虽然学习奖励模型是高效的,但在某些安全关键情况下,可能有必要直接提供奖励,以进行RL训练。
2. 多目标监督
更丰富的多目标信号可对多个目标的输出进行评级,从而实现更灵活的监督。
3. 保持学习奖励功能不确定性
保持所学奖励函数的不确定性。鉴于准确学习适当奖励函数所面临的挑战,一些研究强调了将所学函数的不确定性考虑在内的重要性。
策略
1. 在训练前调整LLM。
LLM中的RLHF通常从对LLM进行包含大量不良内容的互联网文本预训开始。
2. 通过监督式学习调整LLM。
有几种将LLM与人类偏好相匹配的技术,可以通过使用监督学习而不是 RL来获得与RLHF相媲美的结果。其中最简单的变体就是在经过精心整理的数据上执行标准的监督学习。
RLHF不是你所需要的全部:安全的补充策略
- 稳健性
- 风险评估及审核
- 解释性和模型编辑
监管和透明度对透明度的持续关注将使现有的RLHF研究环境在安全性方面更加稳定。
首先,公开一些大型RLHF训练过程背后的细节将阐明某个组织对模型审查和安全检查的规范。
其次,增加对于已知风险缓解措施的透明度可以改善安全激励,还能提供让外部利益相关者对模型训练公司进行问责的方法。
第三,对于本文来说,透明度将增强AI安全社区对RLHF的理解,并能追踪应对这些挑战的技术进展。
由于更具体的策略建议超出了研究的范围,研究人员希望在未来将这些主题进行进一步的探讨。
不过,研究人员还是针对不同的挑战类型提出了一些具体细节,如果能够披露这些细节,将能够披露风险,并且在对使用RLHF开发的AI系统进行审核时应该考虑这些细节,见下图。
人类反馈:
- 对预训练过程的具体描述,包括关于使用了哪些数据来显露可能导致的偏见的细节。
- 披露如何选择和培训人类评估者的过程,以提供与评估者可能具有恶意、不代表性或无能力风险相关的信息的过程。
-披露选择示例以获得反馈的过程,从而能够检查其代表性,并能帮助判断是否进行了足够的对抗性训练。如果示例是从公开可用的应用程序中众包获取的,则应提供有关采取措施以避免数据污染的详细信息。
- 使用的人类反馈类型(例如,二元比较、标量反馈等)以建议不充分丰富或充分反馈可能引起的风险。
- 披露关于反馈收集的质量保证措施和评分者之间一致性的措施,确保采取了有效的质量控制措施。
奖励模型:
- 披露用于拟合奖励模型的损失函数,以及在拟合奖励模型时如何建模不一致性(例如,作为噪声)以帮助分析失配程度。
- 披露报告关于奖励模型评估和结果的情况,以建议可能出现的来自不一致奖励模型的问题。评估应包括红队测试。
策略:
- 披露关于策略评估和结果的情况,以建议可能出现的来自不一致策略的问题。评估应包括红队测试,并包括对风险能力(例如欺骗人类的能力)的评估。
系统性安全措施:
-报告关于内部和外部审计以及红队测试的情况,以确保问责制,并披露已经识别的风险。
- 报告预期的风险和预期的故障模式,以确保问责制。
-监测和纠正故障的计划,以支持部署后的安全性。
对社会和经济公平性的关注:
尽管本文侧重于RLHF的技术挑战,但社会和经济问题同样重要,需要治理机构和行业共同努力解决。
例如,OpenAI曾向肯尼亚的知识工作者支付低于每小时2美元的报酬,而这项工作在心理和情感上都非常让人难以接受。
在RLHF研究中使用的人类对象不应只是因为方便或者是成本低就作为最理想的对象。
成本、收益和对RLHF模型的影响应该在不同群体之间得到公平分配。
此外,强大的AI系统有可能会带来高额利润,并将大量财富和权力集中在少数人手中。
因此,制定解决不平等问题和保护弱势群体(例如受影响的社区、举报者)的策略将变得越来越重要。