大模型安全与对齐：复杂系统视角下的AI安全

文章正文

发布时间：2024-09-21 11:44

原创 Dan H, ThomasW 集智俱乐部

导语

大模型的狂飙突进唤醒了人们对AI技术的热情和憧憬，也引发了对AI技术本身存在的社会伦理风险及其对人类生存构成的潜在威胁的普遍担忧。尤其在复杂系统视角下，大模型正在展现出非线性的、远超预期的涌现能力，这是AI技术的新机遇，也是AI安全的新挑战。在此背景下，大模型安全与对齐得到广泛关注，这是一个致力于让AI造福人类，避免大模型失控或被滥用而导致灾难性后果的研究方向。

研究领域：复杂系统，大模型安全与对齐，深度学习

Dan H, ThomasW | 作者

刘培源 | 译者

原文题目：
Complex Systems for AI Safety
原文地址：https://www.alignmentforum.org/s/FaEBwhhe3otzYKGQt/p/n767Q8HqbrteaPA25#Resources_on_Complex_Systems

1. AI 安全的系统视角

2. 多样性

3. 总结

引导AI研究领域走向更安全的道路至关重要。然而，由于其复杂性以及未来发展的高度不确定性，我们很难理解如何塑造它。因此，仅仅是初步思考如何引导该领域，就可能会令人生畏。我们不能过于简化假设以掩盖该领域的复杂性，但也不能过少假设，以至于无法产生任何可操作的见解。

幸运的是，复杂系统领域提供了出路。复杂系统研究已经找出了许多种系统的共性，并识别出了它们可以被建模和改变的方式。在本文中，我们将解释复杂系统背后的一些基础理念，以及如何将它们应用于塑造AI研究生态。在此过程中，我们还将展示深度学习系统体现了复杂系统的许多基本属性，并阐述复杂系统如何对深度学习AI安全研究有所裨益。

1. AI 安全的系统视角

背景：复杂系统

在考虑改变深度学习等经验领域的轨迹以及防止高风险系统的灾难时，必须对复杂系统有所了解。复杂系统是一个完整的研究领域，我们无法在这里描述每一个相关细节。在本节中，我们将尝试仅对该领域进行一个非常高层次的概览。在本文的最后，我们提供一些学习更多的资源。

复杂系统由许多相互作用的组件构成，展现出涌现的群体行为。复杂系统高度互联，使得分解和还原性分析效果欠佳：将系统拆解为各个部分并对其进行分析，并不能很好地解释整体。然而，复杂系统对于统计学来说又过于有序，因为系统中的相互依赖关系打破了统计学中许多基本的独立性假设。复杂系统无处不在：金融系统、电网、社会昆虫、互联网、气候系统、生物细胞、人类社会、深度学习模型、大脑和其他系统，都是复杂系统。

将AI安全性与提升其他特定系统的安全性相比较可能颇具挑战。保障AI安全，是否类似于保障火箭、电厂或计算机程序的安全？虽然可以寻找一些类比，但也存在许多不同点。更为实用的观点是讨论如何提高复杂系统的安全性。在进行系统理论风险分析时，我们可以抽离出具体内容，仅关注各个系统中共享的结构。与其讨论某个高风险技术的成功之处，通过系统视角，我们可以讨论在大量技术中取得成功的共性，这样可以避免过度拟合到特定的例子上。

从复杂系统理论中得出的核心教训是，还原论是不够的。将一个系统分解为孤立的事件或组件，然后尝试分析每个部分并将结果结合起来，这往往是诱人的。这种做法错误地假设分离不会扭曲系统的属性。实际上，系统各个部分并不是独立运作的，而是受到反馈环路和非线性相互作用的影响。仅仅分析部分之间的两两相互作用不足以捕捉到完整的系统复杂性（这是为什么n-gram模型远不如注意力模型的原因之一）。

危害分析（hazard analysis）过去仅仅采用还原论方法。在早期的模型中，事故被分解成一系列被认为导致该事故的事件链，所谓危害即导致事故的根本原因。复杂系统理论已经在许多行业中取代了这种分析方法，部分原因是在分析复杂系统时，寻找灾难的最终“根本原因”并不是一种有效方法。不同于寻找负责安全的单一组件，识别包括社会技术因素在内的众多因素是有意义的。系统视角不是将事件分解为因果关系，而是将事件视为系统部分之间复杂互动的产物。

认识到我们正在处理复杂系统，现在我们将讨论如何利用复杂系统的见解来帮助使AI系统更安全。

改善贡献因素

“直接影响”是指由简单、短暂和确定性因果链引起的影响，相对而言比较容易分析和量化。然而，这并不意味着直接影响总是实现影响的最佳途径。如果一个人只专注于直接影响，就无法优化以间接方式实现影响的途径。例如，EA（有效利他主义）社区建设是间接的，但如果没有它，致力于解决某些问题的资金和人员将大大减少。成为亿万富翁并捐赠资金也是间接的，但如果没有这一点，资金将明显减少。同样地，安全领域建设可能不会直接对技术问题产生立即的影响，但它仍然可以极大地改变致力于解决这些问题的资源，并进而有助于解决这些问题（注意，“资源”不仅仅指金钱，还有能够取得进展的研究能手）。在一个复杂系统中，必须考虑和优先处理这些间接/分散因素。

AI安全并不仅仅是寻找安全机制，比如可以添加的机制来使超级智能完全安全。这有点像说计算机安全只关乎防火墙，这是不正确的。信息保障的发展是为了解决信息安全中的盲区，因为我们不能忽视复杂系统、安全文化、协议等因素。

在AI安全的研究方向中，通常被认为需要有一个简单的直接影响故事：如果这种干预成功，它对实现安全和对齐的AGI（通用人工智能）有何用处？“这如何直接降低风险”是一个出于善意的问题，但它忽略了显著的远程、间接或非线性因果因素。这些分散因素不能被忽视，我们将在下面进行讨论。

关于简单的影响理论的权衡说明

AI安全研究足够复杂，我们应该预期理解其影响理论可能需要对特定领域有深入的知识和专业技能。因此，对于没有任何背景的人来说，在短时间内很难简单地解释这项研究的“影响理论”（theory of impact）。尤其是对于多方面、涉及社会动力学，并要求了解问题的多个不同角度的影响理论来说，这一点尤为真实。因此，我们不仅应该关注那些对新手易于解释的影响理论。

在某些情况下，从使用角度看，人们并不总是应该只关注最直接和明显相关的研究领域。乍一看，强化学习（RL）与先进的人工智能主体（agent）密切相关。强化学习在概念上比监督学习更广泛，以至于监督学习可以被看作是一个强化学习问题。然而，强化学习所考虑的问题，在监督学习中并未考虑，目前要解决这些问题的可解性要低得多。这意味着在实践中，监督学习可能提供了更易解决的研究方向。

然而，对于与风险缓解不太直接和明显相关的影响理论，我们需要非常谨慎确保研究仍然具有相关性。与研究的核心目标关联较弱可能导致其偏离轨道，无法实现其最初目的。当研究议程由原本研究动机较弱的人员执行时，这一点尤其真实，并且可能导致价值偏移（即先前以风险缓解为动机的研究人员，开始追求不再相关的中间替代性目标）。因此，对于以风险缓解为动机的研究人员和资助机构来说，维护该领域并积极确保研究保持相关性更加重要（稍后将对此进行讨论）。

因此，在仅选择能够立即把握的影响策略时存在权衡。不能忽视系统性因素，但这并不消除理解研究和影响之间因果关系（无论是间接/非线性/分散还是直接）的需求。

系统因素的重要性的例子

以下例子阐明了系统因素的极度重要性（以及直接因果分析与如反向链这类补充技术存在的局限）：

财富增长与儿童死亡率减低有着强烈关联。但我们不能总是把特定孩子的生存归结为他们所在国家财富的提升。然而，提高整体财富仍是减少儿童死亡率的有效途径。

社区建设、改善机构和改善认知通常不能直接与特定结果联系起来，但总体而言，它们显然具有重大影响。

吸烟并不保证你会得癌症。如果你吸烟并患上了癌症，患癌原因并不一定是你吸烟。然而，避免吸烟显然是预防癌症的好方法。相反地，锻炼并不能保证你会健康，但它确实有很大的帮助。

智力（如通过智商测试所衡量的）对于人们执行各种任务的能力具有巨大影响。然而，我们很难断言某人正确回答了特定选择题是因为他们的智商超过了某一数值。同样，预测和理性可能会提升超有机体的“智商”，但同样不能期待它带来单一明确的结果。提升理性标准有助于改善结果，即使我们无法构建一个简单的事件链来证明它可以预防特定的未来灾难。

任何特定的飓风或野火都不能直接归咎于气候变化，但是减缓气候变化无疑是降低这些极端天气事件频发的有效途径。

在上述例子中，只要数据充足，我们可以利用统计学来揭示变量之间的关系。有些关系甚至能通过随机对照试验来确立因果性。然而，我们并无能力或时间对那些可能减缓AI带来的存在性风险的分散因素（diffuse factors）进行随机对照试验。不同于上述情形，我们无法观察到大量不同的结果，因为一旦发生存在性灾难，那将是我们最后的观察结果。这并不意味着分散因素就不重要；相反，它们极其重要。我们可以去识别那些在过去类似情景中经过时间检验、证明具有鲁棒效用的因素。

在更大的社会尺度上，以下列举的分散因素对于减少AI带来极端风险至关重要。请注意，在某些情况下这些因素可能会相互作用：例如，如果恶意行动者掌握了权力，那么主动防范风险可能就无济于事了。

人们具有改进的认识能力：非理性可能导致人们忽视警告信号，对正确的主张不予理会，并在不应该的时候继续前进。

对（尾部）风险的主动性：让人类作为一个集体更加关注尾部风险将对安全产生积极影响。由于人类倾向于忽视尾部风险，目前对减轻尾部风险的工作缺乏激励。

扩展的道德圈：术语“道德圈”描述了一个人认为具有道德相关性的存在（例如社区中的人们、世界各地的人们、未来的人们、非人类动物等）。人们并不需要一个很大的道德圈来希望避免自己的死亡，但它可以加强减少风险的重要性的感知。

将（不合适的）恶意行为者（自私主义者/马基雅维利主义者/精神病患者）排除在权力之外：与积极恶意的领导者相抗衡比与冷漠的领导者更加困难。让公正、谨慎和利他主义者担任权力职位可能会减少风险。

社会技术因素

社会技术因素与操作过程之间复杂的相互作用，by Nancy Leveson

我们现在可以讨论一些具体的分散因素，这些因素已被证明与使高风险技术系统更安全有很高的相关性，也与使现有和未来的AI系统更安全有关。以下社会技术因素（编自Perrow、La Porte、Leveson等人的研究）往往会影响危险性：

规章制度，可能包括内部政策和法律治理。

社会压力，包括来自普通大众以及有权势的人士的压力。

生产力压力，或者是迅速交付的压力。

组织内的激励机制，如快速交付的奖励或对举报行为的报复。

来自其他行动者的竞争压力，他们可能有不同的安全标准，或者能够更快地行动。

安全预算和计算分配：安全团队是否有能力进行他们所需的实验？预算和计算资源中是否有相当比例专门用于安全？

安全团队的规模与预算有关。研究人员、工程师和安全团队的顶级研究人员的数量非常重要。

报警疲劳：如果对从未发生的安全问题频繁发出虚假警报，可能会降低对安全的关注意愿。

减少检查和预防性维护，这对于像安全这样的前瞻性问题可能不那么相关。然而，如果人们不密切关注能力发展，可能会让涌现出的能力（或者行动者）给我们带来惊喜。

缺乏深度防御：提供多层次防御以应对各种危险的重叠系统。

缺乏冗余：多个系统完成类似的安全任务，以消除单点故障。

缺乏故障保护措施：指的是使系统能够优雅地失败的功能。

安全机制成本：使系统安全需要多少费用？

安全文化，指的是组织或领域内对安全的普遍态度。

根据曾在多个行业咨询高风险技术设计的 Leveson所说，“如果我们想要预防未来的事故，最重要的[因素]是安全文化。”

安全文化

安全文化并不是一个容易解决的风险因素，尽管它很可能是最重要的之一。许多机器学习研究人员在被问及对齐或安全性时常常会翻白眼：通常情况下，我们不能简单地直接讨论超级智能存在的潜在风险，而不考虑可能带来的社会成本或可能适得其反的努力。这是安全文化不足的一个迹象。

我们如何提升安全文化呢？通过良好的激励结构和深入的研究，需要将安全置于首位。推动研究文化朝更安全的方向发展的瓶颈在于寻找有趣、即刻可行且与安全相关的任务，并为完成这些任务提供资金支持。

如上所示的投机金字塔建议，立即将安全变成社区规范是不现实的。在此之前，我们需要明确安全的样貌，并且需要基础设施尽可能地简化AI安全研究。研究人员需要接受有关风险的论证，并且需要明确、具体、低风险的研究任务来追求。这涉及到创建资金机会、研讨会和奖励，以及通过指标明确定义问题。

下列因素影响了安全文化：

对失败的过度关注，尤其是黑天鹅事件和未曾预见的失败。

不愿意简化解释并仅用简单的叙述来解释失败。

对操作的敏感性，涉及密切监控系统以察觉意外行为。

对韧性的承诺，意味着在面对意外情况时能够迅速适应变化，并愿意尝试新的想法。

组织结构的定义不规范，新信息可以在整个组织内部传播，而不仅仅依赖固定的报告链条。

对于主流文化来说，公众宣传可以起到一定的作用。一种可能的方式是，由于更广泛的文化需求或对安全性缺乏信任的担忧，AI系统可能变得更加安全。相反地，如果AI安全性受到贬低或在大众中没有得到重视，可能会有其他公众压力（例如赢得AI竞赛、利用AI快速实现某种社会利益），这可能会对安全性构成一定的冲击。然而，主流宣传不应过于极端，以至于使研究界反对安全性。必须谨慎地改变舆论窗口。

目前，一些批评者认为安全性工作会削弱对AI公平性和偏见的关注，并且没有高度重视当前权力不平等问题，而他们认为这是全球问题的根源。这些批评与对长期主义的批评有关，特别是对未来存在的数量进行荒谬似乎的预期价值计算，以及有效利他主义的亿万富翁的影响。这些批评威胁到了安全文化的发展。在避免负面副作用的同时，呈现一种替代观点是非常棘手但也是必要的。

目前，安全性面临着批评，批评者认为它削弱了对AI公平性和偏见的研究，并没有充分优先考虑当前的权力不平等问题，而他们认为这是全球问题的根源。这些批评与对长期主义（认为应当优先考虑未来世代影响而非当前问题）的批评有关，特别是对未来人口规模的荒谬预期，和不切实际的价值预估，以及对秉承有效利他主义（认为通过效果最大化的方式帮助他人和解决社会问题）的亿万富翁的影响力的批评。这些批评威胁到了安全文化的发展。在避免负面副作用的同时，提出一种替代观点是棘手但必要的。

一些技术问题除了直接对安全有用之外，还在安全文化方面具有工具性的用途。一个例子是可靠性：构建高度可靠的系统，训练人们特别考虑系统的尾部风险。这种方式不同于仅仅在典型环境中构建更准确的系统。另一方面，价值学习虽然也是一个需要解决的问题，但目前对于安全文化优化来说并不是那么有用。

顶级AI研究人员的构成

现在我们将讨论另一个对改进至关重要的因素：顶级AI研究人员的构成。未来，与最先进的AI系统进行实验将变得异常昂贵（在很多情况下，已经如此）。只有少数几个人将有权力为这些系统设定研究方向。尽管无法确切知道将有哪些人组成这个小团体，但可能包括某个数量的顶级AI研究人员。并且有一点是已知的：大多数顶级AI研究人员并不关注安全性问题。因此，需要增加顶级研究人员中对安全性问题的认同度，特别是包括中国的研究者，并培养更多对安全具有意识的人成为顶级研究人员。

“顶级AI研究人员可以被买走”这个想法很诱人。事实并非如此。要成为顶级研究人员，他们必须具有高度的个人见解，并受到除金钱以外的其他因素的驱动。他们中的许多人选择进入学术界，而这并非以金钱为驱动力的人通常选择的职业道路。Yann LeCun和Geoffrey Hinton除了在Meta和Google的工作职位外，仍然担任学术职位。Yoshua Bengio完全在学术界。科技公司肯定愿意用更高的价格购买他们的时间，那么为什么这三位深度学习的先驱者不都在薪酬最高的行业工作呢？金钱激励对于外部动机驱动的人是有用的，但许多顶级研究人员主要是受内在动机驱动的。

研究人员的主要动力之一是问题的有趣程度或“酷炫”程度。要让更多人研究相关问题，就需要找到有趣且明确定义的子问题供他们研究。这需要将问题具体化，并提供解决问题的资金支持。

由于许多顶级研究人员对技术持积极态度，他们对于有关研究危险性的抱怨并不感兴趣，而且很可能会不予理睬。尤其是当这些抱怨来自那些在该领域没有做出太多贡献的人时，这一点更为明显。因此，对于那些希望获得任何可信度的人来说，保持贡献与抱怨的比例较高非常重要。“贡献”可以是安全方面的贡献，但它需要是对机器学习研究人员可读的贡献。顶级研究人员可能还会将对存在风险的讨论与媒体上的耸人听闻的故事、末日预言或恐慌情绪联系在一起，即“我们都会死”的恐慌。

被忽视的因素

有许多其他因素导致了AI安全问题的普遍被忽视。为了提高安全性，优化这些因素是非常重要的。以下是这些因素的更一般的列表。

企业：短视追求短期股东回报，安全特性可能需要很长时间才能得到回报，一些人类价值可能难以体现在价格或金钱激励中。

喜怒无常：科技乐观主义，不喜欢讨论风险。

政治：AI安全被视为与气候变化和减少不平等这些更受欢迎的政治议题相竞争。

技术背景：安全问题超出了一个人现有的技能和培训范围，同样机器伦理和社会技术关注并不会如同定量倾向那样容易适应。

社会经济距离：许多AI研究人员生活在科技圈的小圈子里，这可能导致研究人员对于强调人类价值的世界性方法持有贬低或隐含低调的态度。

尾部风险：非常重大的黑天鹅事件和尾部风险被系统性地忽视。

威望性：对于AGI的讨论不感兴趣，觉得某个领域缺乏声望，或者与持有其他不受欢迎或看似奇怪的观点的人相关联。

时间性：未来的风险和未来的人被严重忽视。

AI安全的复杂系统

复杂系统研究强调我们应该关注贡献因素（因为事件是许多贡献因素相互作用的产物），并且它帮助我们确定在许多现实情境中哪些贡献因素最重要。它们还提供了关于深度学习的客观层面的洞察，因为深度学习系统本身就是复杂系统。

深度学习展示了许多复杂系统的特征：

高度分布的功能：部分概念被冗余编码并高度聚合。

众多弱非线性连接：连接参数非零（而非稀疏），神经网络包含非线性激活函数。

自组织：通过自动优化损失函数来指定模型的内部内容。

适应性：少样本模型和在线模型具有适应性。

反馈循环：自我对弈，人在循环中，自动诱发的分布转移。

可扩展的结构：规模缩放定律（Scaling Law）表明模型可以简单而一致地进行缩放。

涌现能力：许多计划外的能力自发地“启动”。

因此，复杂系统的洞见对深度学习非常适用。同样地，像所有大型社会技术结构一样，AI研究社区也可以被视为一个复杂系统。运营AI系统的组织也是复杂系统。

复杂系统是解决各种问题的一种预测性模型，包括AI安全。事实上，AI安全中的许多重要概念都是更一般原则的具体实例。以下是来自《系统圣经The Systems Bible》（1975年）的高度简化的复杂系统教训的例子：

系统一旦形成，就会立即产生自己的目标。

解释：一个系统的目标很少仅仅是最初被赋予的目标。相反，其他目标会从系统的组织过程中涌现。

对AI的影响：一个显著的例子是自我保护或追求权力的工具性目标。

系统内部的目标首先。

解释：系统通常将目标分解为不同的内部组件的子目标来解决。在这个分解过程中，目标往往会被扭曲。一个常见的失败模式是系统明确写下的目标不一定是系统在操作上追求的目标，这可能导致不一致。系统的子目标可能会超越其实际目标。例如，一个官僚机构（一个子系统）可以掌握权力，并使公司追求与其初始目标不同的目标。

对AI的影响：一个相关的现象已经被社区广泛认知为“内部优化”；系统理论几十年来已经对其进行了更一般性的预测。

复杂系统的失效模式通常无法从其结构中预测。

解释：仅仅对一个复杂系统进行检查，并不能确切地让你知道它可能出现的故障。通常，故障是通过经验和测试来确定的。

对AI的影响：仅通过检查神经网络的权重、架构或通过纸面推理/白板分析，很难理解神经网络可能出现的所有故障方式。我们可以预料到，一些故障是无法预测的。（尽管故障是不可避免的，但灾难并非如此。）

战略意义：采用“认真思考问题，确保解决方案没有漏洞”的方法很难找到一个真正没有漏洞的解决方案。在复杂系统中，防止失败不是一个数学问题。在复杂系统中，很少有对称性，很少有必要和充分条件或布尔连接（没有根本原因），存在循环关系，有许多部分概念（组合爆炸），自组织性强，分布性高。所有这些特性使得复杂系统很难从纸面/白板上通过论证进行分析。

关键变量是偶然发现的。

解释：通过检查很难知道系统中最重要的部分是什么。最具影响力的点并不明显。同样，最有效的方法通常是通过试验或偶然发现的。

对AI的影响：许多最重大的AI突破并不是通过原理性、高度结构化的研究发现的，而是通过不断摸索和调试实现的。

战略意义：许多当前的研究方法都押注于将AGI视为数学对象而非复杂系统，考虑到当前的AI系统以及我们所了解的其他智能系统（例如人类、公司），这似乎是不现实的。

通过扩展较小系统的维度所产生的大系统，其行为不同于较小系统。

解释：单纯扩大一个系统规模，不仅仅使其在之前的工作中变得更好。我们应该期望看到新的性质和新的能力的涌现。

对AI的影响：我们应该预期在更小的版本中根本不存在的涌现能力的出现。例如，在能力较低的情况下，欺骗对于一个智能体来说并不是一个好主意，但随着智能程度的提高，欺骗可能成为实现目标的更好策略。

战略意义：扩大一个协调一致的系统并期望其完全一致，并非是一个完美的想法。即使是一个高度可靠的系统，扩大规模也需要谨慎处理。

吉尔布的不可靠定律（Gilb’s Laws of Unreliability）：任何依赖于人类可靠性的系统都是不可靠的。

解释：人类不可靠。依赖他们会导致不可靠性。

战略意义：AI系统的发展速度可能过快，过于爆炸性。过度依赖人类反馈或人机协同方法可能不够可靠。我们需要一种更可靠的策略来保护人类价值观，或许可以通过其他AI系统的监督来实现。

一个运作良好的复杂系统往往是从一个运作良好的简单系统演化而来的。

解释：复杂系统不能从零开始创建并期望其能够正常运行。相反，它们必须始于更简单的运行系统，逐步演化而来。

战略意义：在简单系统上进行安全性工作，并尝试（谨慎地）进行扩展，比起从零开始构建一个一致性复杂系统更有可能取得成功。尽管系统在扩展时表现不同，但那些有效的系统是从较小规模的系统演化而来的。如果无法使较简单版本的复杂系统保持一致，那么很难使更复杂的版本保持一致。基于这种观点，当务之急是使当前的简单系统更加安全。

多样性

确保复杂系统良好运作涉及到许多不同的方面，单一的贡献因素或研究方向是不足以解决问题的。因此，有必要保持多样化的优先事项，以确保系统能够有效运行。

由于个体的专业能力有限且个体众多，通常最明智的做法是押注于单一预期价值最高的研究方法。然而，将整个系统视为系统内的个体，这样的做法是错误的。如果系统将所有资源分配给预期价值最高的选项，而该选项未能产生回报，那么系统将失败。这在金融和许多其他采用投资组合方法的领域中，是已知事实。不要只进行一次大赌注，或者只押注于最有利的（例如，预期价值最高的）途径。在孤立情况下，X的边际收益可能高于Y，但整个系统不要局限于只能选择一个因素。正如俗语所说：“不要把所有的鸡蛋放在一个篮子里。”

显然资源分配明显不够优化的一个例子是，直到相对最近，AI安全社区将其大部分资源投入到强化学习上。虽然对于一些最初的安全研究人员来说，强化学习可能似乎是朝着AGI进展最有希望的领域，但这种策略意味着没有太多人研究深度学习。深度学习安全研究人员被鼓励专注于强化学习环境，因为它“更加普适”，但并不意味着，仅仅因为某个问题可以转化为强化学习问题，就应该这样做。与此同时，更大的机器学习社区更加关注深度学习而非强化学习。显然，深度学习现在至少与强化学习一样有希望，并且在深度学习领域进行了更多的安全研究。基于可行性、信息价值、研究的迭代进展以及社区建设效应，如果更多人从早期开始研究深度学习，情况可能会更好。如果社区领导者重视推动研究的多样化，这种情况可以很容易避免出现。

如果我们同时处理多个方面，而不仅仅依赖于单一领域或策略，我们将能够更好地应对问题并降低忽视重要变量所带来的成本。由于成本往往与问题被忽视的时间成超线性关系，这对实际应用具有严重影响。因此，将资源用于经常支付成本而不仅在成本已经激增后才应用资源是明智之举。等待越久，实施干预就越困难；如果成本是凸函数（例如二次函数而不是对数函数），那么成本将进一步增加。通过多样化处理，可以隐含地降低这些成本。

AI安全是一个极度不确定的领域：关于最大的问题将是什么，时间表是什么，第一个AGI系统会是什么样子等等。在最高的不确定性水平上，最重要的是提高系统的优点（例如，精英主义结构，人才的数量等等）。如果你的不确定性水平稍低，你还想进行一些大的赌注和许多小的赌注，以应对可能的未来。此外，在高度不确定或工作尚未成熟时，遵循“涌现战略”要比制定高度结构化、完善的方向更加有效。

通过多样化，我们不需要在采取行动之前决定性地解决所有重大问题。是我们缓慢启动，还是AI会突然爆发？隐含在随机梯度下降中的偏见对我们有利，还是对我们不利？我们应该创建追求积极方向的AI，还是应该尽力控制以防止其掌控？只要这些问题的答案之间不是高度负相关的，我们可以分散投资并支持多个研究方向。此外，研究可以帮助解决这些问题，并指导哪些未来研究应该包括在整体投资组合中。看到多样化的价值使研究人员不必花费时间向公众表达其默会知识和深奥的技术直觉，因为也许这个问题直到以后才能得到解答。多样化使研究人员之间减少分歧，并让他们继续工作，同时降低了我们对错误假设的风险敞口。

多样化并不意味着对想法不应该有选择性。一些想法，包括学术界和工业界常常追求的那些，可能对于降低风险并没有任何用处，即使它们被描述成有用的。仅仅因为变量之间存在非线性相互作用，并不意味着资源应该被投入到与问题无关的变量上。

此外，个人并不一定需要拥有多样化的投资组合。专业化有其好处，因此个人可能更好地选择一个领域，在这个领域中通过专业化可能更有可能产生重大影响。然而，如果每个人都专注于他们所认为的在整体研究中最重要的领域，并且他们对此的判断高度相关，我们将会看到研究将集中在少数几个领域。这将会带来问题，因为即使这些领域是最重要的，也不应该单纯地追求它们而忽视其他所有干预措施。

在复杂系统中，我们应该预期许多相互作用的变量对系统整体安全性具有重要影响。如果我们忽视其他安全因素，只专注于“最重要的一个”，实质上是将其他一切都置零，这并不是在多元化的系统中降低风险概率的方式。例如，我们不应只关注创建技术安全解决方案，更不要押注于一个主要的技术解决方案。还有其他变量可以预期与此变量非线性地相互作用：这种系统的成本、在拥有强大安全文化的实验室中开发AGI的可能性、其他参与者实施不符合目标的版本的可能性以及所讨论的符合目标系统实际上会导致AGI的可能性。这些相互作用和相互依赖意味着必须同时努力推动所有因素。这也有助于提供所谓的深度防御：如果某项降低危险因素的措施失败，其他已有措施可以帮助处理问题。

影响往往是长尾的，一项资助的影响将由几条关键路径所主导。同样，在一个多样化的投资组合中，绝大部分的影响可能会由少数几项资助所主导。然而，最佳策略将从长尾分布中进行大量采样，或者最大程度地接触到长尾分布。增加接触“黑天鹅事件”（极端事件）的方法之一是，采用可以产生多种不同正面影响的广泛干预措施，以及更大规模的干预措施组合。这与仅选择针对尾部的干预措施的方法形成对比，在大型复杂系统中这通常是不可行的，因为尾部在事前无法完全知晓。相反，应优先考虑那些有足够机会成为尾部事件的干预措施。

根据AI发展的阶段，我们应更加注重有针对性或广泛的干预措施。过去，广泛的干预措施明显更为有效：例如，在深度学习出现之前，研究经验对齐几乎没有多大用处。甚至在深度学习出现后不久，许多经验对齐方法在大规模预训练模型出现时被大大弱化。由于深度学习社区规模相对较小，相对而言更容易进行广泛的干预措施（相对于诸如全球卫生领域需要影响数百万人的干预措施）。

在当前阶段，针对特定系统进行定向干预可能无法产生全部影响，而希望将所有可能的系统进行整合的广泛方法也不太可能成功。这是因为在优化有助于良好研究的因素方面仍存在巨大潜力，这将进一步使这两种方法显著提高效果。最好的干预措施将不再像具体的故事，描述干预如何在AGI创建过程中影响特定参与者，而更接近帮助改善多个可能参与者的文化、激励和认同的行动。

这表明一个有用的做法可能是提出广泛的干预措施，以使安全研究领域能够更有效地应对问题，并更好地为未来的有针对性干预措施做好准备。需要注意的是，一些广泛的干预措施，比如影响安全文化的干预措施，不仅仅在于加速后续有针对性干预措施的实施，而且还可能增加这些有针对性干预措施成功被采纳的可能性。

我们还需要有针对性的干预措施，并且它们应该在有需求之前开发，因为存在自发涌现能力的风险。还有一个观点认为，现在就开发有针对性的干预措施，可能会更容易在未来继续开发有针对性的干预措施。因此，需要综合运用有针对性和广泛的干预措施。

结论

由于AI研究领域的规模和复杂性，甚至仅仅开始思考如何影响这个领域，就可能会让人望而却步。然而，复杂系统的研究揭示了一些常见模式，可以帮助我们更好地解决这个问题。特别是在许多情况下，更有意义的是专注于改善贡献因素，而不仅仅试图开发一个对预期结果产生简单、直接因果效应的解决方案。复杂系统对于理解机器学习安全性也非常有用，因为广泛的研究社区、深度学习系统以及部署深度学习系统的组织都是复杂系统。

集智俱乐部和安远AI联合举办「AI安全与对齐」读书会，由多位海内外一线研究者联合发起，旨在深入探讨大模型安全与对齐所涉及的核心技术、理论架构、解决路径以及安全治理等交叉课题，展开共读共研活动。读书会自2024年1月20日开始，每周六上午举行，为期8-10周。欢迎从事相关研究与应用工作的朋友报名加入！

原标题：《大模型安全与对齐：复杂系统视角下的AI安全》

标签