未来文明最终会实现目标保存吗？

作者：Brian Tomasik

首次发布：2017年9月2日。最后重大更新：2020年2月10日。

摘要

目标保存是指一个主体或文明最终可能会防止目标随时间漂移,除非其当前目标认可目标变化。虽然后果主义主体有强烈动机致力于目标保存,但在非平凡系统,尤其是混沌系统中实现目标保存似乎非常困难。我不确定未来的超智能文明最终保存其目标的可能性有多大。即使它做到了,当前人类的价值观与未来先进文明最终锁定的终极目标之间可能存在显著的目标漂移。

引言

价值观随时间大幅变化。例如,人类的价值观与我们的鱼类祖先的价值观有很大不同。即使在过去几个世纪,价值观也发生了显著变化。中世纪的欧洲农民如果看到现代的性开放、不信教、性别平等、对非白人的宽容等,可能会感到震惊。早期的基督徒可能会认为至少许多当代自由派基督教形式是异端。

Goertzel (2018)说(在18分0秒处)：

1000年前甚至50年前的普通人会认为你我是毫无希望的不道德之徒,抛弃了生活中所有有价值的东西。[...]我是个异教徒。我从来没去过教堂...大概吧。我母亲是同性恋。我的意思是,现在我们认为理所当然的很多事情,在不久前完全违背了大多数人认为可能是生活中最重要的价值观。所以"人类价值观"本身就是一个不断变化的目标。

价值观随时间变异的这种趋势会无限期地持续下去吗？还是说,更高的智能和集中控制世界的可能性将允许长期锁定一套固定的价值观？这个问题非常重要,因为它影响了当前努力影响远期未来价值观的行为是否能产生可预测的持久影响,或者我们现在试图传播的价值观是否会在几千年或几百万年内变异成不同的东西。

我们应该预期未来会发生激进变革

假设你是5000万年前的一只小型哺乳动物。为了讨论,想象你会阅读和做科学研究。你一直在研究自恐龙灭绝以来祖先尾巴长度的趋势,你注意到一个一致的趋势:哺乳动物的尾巴似乎随着时间不断变长。(我不知道这是否真的发生过;这只是我故事的一部分。)你可能会得出结论,尾巴变长是一个将无限期持续的稳健趋势。

现在想象你是21世纪的人类。你观察到过去几个世纪有一个普遍一致的长期趋势,即故意残忍行为减少,道德关怀范围扩大。你预测这种趋势很可能会无限期持续下去,最终导致一个高度道德和富有同情心的后人类未来。

我认为我们的默认假设应该是未来将与现在截然不同。我们的后人类后代很可能与我们有如此大的不同,就像我们与5000万年前的哺乳动物一样不同。我预计他们的价值观也会同样不同。哺乳动物尾巴变长或人类同情心增强的暂时趋势,很可能都只是历史的脚注,对公元100万年世界的最终面貌几乎没有任何相关性。我认为,那些声称"这次不同"的人,即我们这些小灵长类动物大脑中持有的价值观将对长期未来产生比我们哺乳动物祖先的行为对我们的影响更持久的影响,应该承担举证责任。想象现在的情况大致会继续下去可能很诱人,但这种预测往往是错误的(维基百科"历史终结幻觉")。

尽管如此,即使现在人类的价值观很不可能持续到长期未来,仍然存在这样一种可能性:在某个时候(尽管可能不会很快),价值观会被"锁定"到一个永久状态。

为什么目标保存可能会发生

目标保存是"基本人工智能驱动力"之一。Omohundro (2008):"想象一个热爱书籍的主体,其效用函数被一个纵火犯改变,导致该主体喜欢烧书。它未来的自我不仅不会努力收集和保存书籍,还会积极地去销毁它们。这种结果的效用如此负面,以至于系统会不遗余力地保护其效用函数。"换句话说,我们应该期望未来的理性主体会高度重视实施目标保存。

现在的理性主体已经致力于保存某些目标,比如通过婚姻誓言(Lamb 2006)或公司章程和使命宣言。然而,人类无法制造自己的精确副本,也无法将自己恢复到以前的大脑状态,这部分解释了为什么尽管有旨在保护传统价值观的机构,我们仍然看到社会目标随时间发生如此大的漂移。我们可能认为,一旦心智可以复制,目标可以更精确和无损地以数字形式编码,目标保存将变得更容易。

另一个更抽象的论点可能是,目标保存是一种稳定状态,而目标漂移则不是。一旦你稳健地实现了目标保存,你就会无限期地停留在那里,除非有重大的外力将你从那个平衡状态中击出。我们可以把目标稳定性想象成高尔夫球的洞。最终,在高尔夫球随机移动了很长时间后,它可能会落入一个洞中并停留在那里——直到外力将它从洞中击出或高尔夫球场被摧毁。(当然,高尔夫球也可能永远不会落入洞中,或者很容易被击出洞。)

为什么目标保存看起来很困难

分布式目标

如果通用人工智能(AGI)采取单一、统一的主体形式,具有清晰指定的效用函数,那么目标保存可能是可行的,因为主体目标的表示相对清晰。如果AGI的所有未来迭代都致力于优化这个效用函数,那么就实现了目标保存。

然而,未来的AGI很可能采取部分以复杂方式相互作用的"社会"形式,个体主体进行自己的优化,但没有全局效用函数。这种愿景似乎是合理的,因为这是我们迄今为止在生物生态系统和人类经济中看到的唯一类型的世界。即使是个体人类大脑也缺乏连贯的效用函数,因为大脑是竞争冲动和模块的集合,它们的相对强度随时间以有时不可预测的方式起伏。Hanson (2017, "回复..."):"在更大的复杂系统中,很难孤立出编码'价值观'的小部分;许多不同的部分最终会影响这些系统在任何给定情况下的行为。"

也许未来的个体主体会合作并形成一个世界政府,但随着社会底层构成的演变,这个政府的价值观会继续发展。换句话说,如果社会的"目标"是复杂底层互动的新兴结果,那么将这些目标约束到固定状态似乎很困难。

也许世界政府可以决定一个清晰的效用函数,并强制更新社会内的所有主体以共享完全相同的价值观？过去的极权社会曾试图近似这个想法,取得了适度但短暂的成功。在数字化的未来,相比过去,永久遵从中央政府的规则似乎更有可能,因为叛逆冲动(如果有的话)可能能够从主体的代码中编辑掉,而且叛逆检测程序的持续监视似乎可能具有成本效益。除了恶意软件或严重的软件错误外,人类通常能够实现其当前计算系统的完全服从,尽管随着软件的目标更多地通过学习而不是硬编码,不稳定行为可能会变得更加常见。在Hanson (2017, "回复...")的评论中,Paul Christiano解释说:"AI [...]避免了代理成本,因为它是由委托人按规格设计的",从而避免了我们在与其他人合作时面临的大多数委托代理问题,因为我们无法直接编辑其他人的目标。

更容易编辑目标

虽然人类的价值观随时间有相当大的漂移,但在核心原则上也有一些稳定性,我们可以从一些文化普遍性中看到这一点。这些普遍性的原因之一可能是人类有相对相似的大脑。这些大脑进化缓慢,不能一下子发生大规模的架构变化。

对于计算机系统,目标更容易编辑,计算机的目标和架构可以更快地彻底转变。因此,在没有积极努力确保目标保存的情况下,我们可能预期AGI的出现实际上会显著加速目标漂移。如果存在改变目标或认知架构的进化压力,那么目标漂移应该会相对快速地发生。

自我改进过程中的漂移

在面对自我改进时,目标保存也看起来很困难。在Waser (2014)中,Eliezer Yudkowsky写道:

证明变更正确的AI的论点不是说总风险降到零 - 还有很多其他风险 - 论点是一个不证明变更正确的AI在十亿次连续自我修改中保证会出错,因为它每次都有条件独立的失败概率。一个证明变更正确的AI有非零的机会在你把其他一切都做对的情况下真正起作用;论点是不证明变更的AI实际上保证会失败。

但证明AGI更新正确似乎极其困难,特别是考虑到目前看来最可行的AGI路径似乎是黑客式的、连接主义的、通常不可解释的学习架构。也许未来的AGI最终会找出如何正式证明其继任者的目标一致性,但我怀疑,正如Waser (2014)所怀疑的那样,系统的可证明性和其"无限学习"潜力之间可能存在根本的权衡。对于一个不太智能的系统来说,验证它是否认可一个更智能的系统是困难的,这部分构成了机器智能研究所所称的Vingean反射问题。

特别是在多极AGI场景中,AGI可能面临快速自我改进的压力,即使这会降低目标保存的可靠性(Oesterheld 2016)。

人在回路中？

也许保护人类价值观的一个解决方案是始终让人类参与其中,并让人类批准采取的任何重大行动。给AGI精确的动机来保留一个人类并以这种方式咨询她听起来很困难,即使能够做到,也不清楚人类是否能够足够理解一切以形成关于应该做什么的合理意见。已经有人类选民难以理解社会的复杂性,以准确判断他们更喜欢哪些政治结果。让一个人类思维或一组人类思维对一个遍布全银河系的极快且详细的数字计算网络(它们在科学和哲学方面的知识远远超过任何人类可能知道的)的期望政策做出判断,听起来是一个挑战。

结论

也许有办法干净地实施稳健的目标保存。即使如此,实施这种措施似乎也很难做到,尽管足够后果主义的主体会有强烈的动机来设计和实施这种措施。总的来说,长期目标保存的可能性似乎非常不明确。我倾向于认为这很难,但也许有一些巧妙的解决方案可以使其发挥作用。

我认为,即使目标保存最终会发生,从现在到最终发生之间也可能会有很多目标漂移,也许会有如此多的目标漂移,以至于未来的价值观按照当今人类的标准来看几乎完全是陌生的。我认为假设未来会有大量目标漂移与广义的哥白尼原理是一致的,因为如果在地球上存在了数十亿年的所有生命形式中,我们21世纪的人类恰好是特殊的那个,其价值观被保存了数十亿年,这将是非常令人惊讶的。

(这个哥白尼原理不需要涉及人类中心的含义。我们可以将其仅仅解释为这样一种观察:当一个人陷入认为自己比其他人特殊的常见认知模式时,他通常是错误的。例如,如果你认为你是世界上最聪明的人,你几乎肯定是错的。换句话说,给定你相信你是特殊的最聪明的人,你实际上是特殊的最聪明的人的概率非常低。同样,也许给定我们相信我们是价值观被无限期保存的特殊主体,我们实际上是价值观被无限期保存的特殊主体的概率非常低。)

Hanson关于价值观漂移的观点

Hanson (2018)讨论了价值观漂移,并得出结论:"有朝一日我们可能能够协调一致地否决宇宙[对价值观漂移的倾向]。但我怀疑我们现在还远远不够接近,甚至无法考虑这一点。[...]目前,价值观漂移似乎是我们无法改变的可能令人遗憾的生活事实之一。"关于AI,Hanson (2018)说:

可能创造具有受保护价值观的有竞争力的AI,即价值观编码的部分很小、模块化、冗余存储,并与系统其余部分的变化隔离。如果是这样,这样的AI可能比人类遭受更少的内部漂移和文化漂移。即便如此,具有受保护价值观的AI的价值观仍应由于影响漂移和竞争而漂移。

Hanson (2017, "Foom ..."):

一些[人...]寻求使当前一代,例如今天的人类,能够对所有未来世代保持强有力的控制,无论它们是生物的、机器人的还是其他什么,即使这些未来世代变得比当前一代强大得多。对我来说,这个问题似乎[...]非常困难[...]。

基于资本所有权的价值观结晶？

Christiano (2014)提出了一个论点,解释为什么世界价值观的分布在未来可能不会漂移那么多。部分论点基于机器可能比孩子或员工更能接受其所有者的价值观的可能性。部分论点是世界财富创造将更多地以投资回报的形式出现,而不是支付给其他人(其价值观当前财富持有者无法控制)的工资。Christiano的帖子有许多很好的评论,包括Ben Kuhn和Robin Hanson的一些评论,我在这里不会重复。我将提到我自己的两个回复,它们与其他人的回复并不完全不同。值得注意的是,Christiano本人并不教条地相信他的提议;他说他的论点:"我不认为这个说法在更广泛的世界中被广泛认为是显而易见的,我也不认为它太可能是真的。"

1. 投资赢家和输家的随机性

对Christiano模型的简单解读是,它假设,用他的话说,"一个以x%的资源开始的人可以在世界增长时保持x%的资源。"但这通常不是这样的,因为不同的人会投资不同的东西,其中一些会比其他的表现更好。例如,一些人会投资谷歌,而其他人会投资Pets.com。Niel Bowerman在评论中提出了类似的观点:

在我看来,除非在后AI世界中进行的风险管理明显多于今天受人尊敬的投资者所做的,否则投资将有一系列可能的结果。因此,我们会看到一些投资的回报明显高于其他投资,导致个人财富遵循类似随机游走的趋势行为。因此,虽然每个人的期望是保持总财富的恒定份额,但全球财富分配不会是静态的,我们不会看到"影响力的结晶"。

Christiano回复说:"这似乎是对的——这里的论点只意味着'期望中的静态'。实际的影响力份额可能会有相当大的变化。"

Ben Kuhn在评论中以类似的精神提到,外生冲击,如两次世界大战,可能会非常不平等地摧毁资本。Christiano回复说:"如果你随机消灭50%的资本家,这并不重要:每个资本家拥有的世界预期份额不受影响。"但像世界大战这样的冲击并不是随机消灭资本家。价值观往往在地理上聚集,战争期间的损失也是如此。事实上,德国在第二次世界大战期间遭受的损失部分是因为第三帝国的可怕价值观。

也许有人会争辩说,投资者可以通过指数基金投资整个世界市场,这样无论谷歌还是Pets.com获胜,无论德国还是美国在战争中遭受重创,不同的投资者仍将获得相同的回报。但除非所有投资者都使用相同的指数基金方法,否则一些恰好更积极地投资于获胜公司/国家的投资者会表现更好,而其他人会表现更差。此外,一些投资很难通过指数基金方法进行,比如对非常早期公司的天使投资。

根据一个人的背景和网络,一些个人不可避免地会在某些项目上"投资更多"(以各种方式)。这甚至在非正式情况下也是如此。例如,恰好是最终成为美国总统的人的亲密大学朋友的人比那些不是她朋友的人拥有更多权力。

2. 系统剧变

在其简单形式中,Christiano的模型似乎假设资本所有权的基础设施将在很长一段时间内继续存在,不会发生重大系统中断。例如,产权将继续得到执行,相当于股票市场的东西将继续运作,等等。但不清楚这是否可能发生。从历史上看,几乎每个看似稳健的政治制度最终都被摧毁了,从古埃及王朝到苏联。虽然经济驱动了世界历史的相当大一部分,但其他力量也发挥作用,往往以不可预测的方式。

Christiano提到再分配是资本所有者的价值观今天没有固化的原因之一:"如果我要从全球生产总值中获得1%的租金收入,它们可能会被积极征税或以其他方式没收并更公平地重新分配。[...]一个大型、长寿的投资基金似乎仍然很可能以这样或那样的方式被拆解,以造福今天的人。"他接着论证说,情况可能会随着机器智能而改变:"如果机器智能获得平等的[政治]代表权,并且1%的机器智能共享我的价值观,那么就没有特别的理由期望重新分配或其他政治操纵会减少我的价值观的普遍性。"我同意你的价值观的预期影响不一定会改变,但实际的价值观分布似乎会改变,可能会发生根本性的变化。重新分配发生在那些想要重新分配的人有能力这样做的时候。在机器智能的未来,如果有联盟想要将财富和权力重新分配给其他联盟,如果他们能做到,他们就会这样做——就像今天发生的情况一样。

Christiano同意冲突可能会使情况复杂化:"冲突还有另一个有趣的含义,即使10%的人共享价值观X,你可能最终会看到其他所有人都可预测地协调一致努力消灭价值观X,这将完全打乱模型(机器智能的到来也不会改变这一点)。"现今世界的财富再分配不就是这方面的一个例子吗？即使"前1%"的人重视自己的财富,但"其他所有人可预测的协调一致努力"来从这些人那里拿走一些财富可能会导致前1%的人拥有更少的财富。

国际关系中的"权力平衡"理论给出了其他例子,说明在一个价值观竞争的系统中,不断变化的行为者联盟如何能够对权力分配产生明显非随机的影响。例如,如果一个主导力量看起来可能成为全球霸主,其他行为者可能会联合起来对抗这种霸权。在这种情况下,主导力量是否增加或减少其影响力份额并不是随机的;由于其规模而被针对,其影响力份额更有可能减少。当然,相反的情况也可能是真的:也许一个领先的力量会变得更强,因为其他国家决定"如果打不过他们,就加入他们"。这再次将是权力分配的非随机变化。先验地很难准确预测这种动态会如何发展,但在我看来,未来的竞争机器智能不会表现出这样的非随机趋势似乎是不可信的。

也许有人会争辩说,如果未来法治崩溃,那么机器智能的进展将会停止,所以那些未来场景与机器智能的预测无关。但是,虽然谷歌出于利润动机的AGI开发可能会在政治革命或世界大战的情况下放缓或停止,但出于军事动机的AGI进展可能会继续,也许会以更快的速度进行。历史上的革命推翻了统治阶级并重新分配了其财富,而没有使这些社会回到石器时代。例如,在法国大革命之后,拿破仑控制了欧洲相当大的一部分,而在俄国革命之后,苏联成为了一个世界超级大国。

另一个论点可能是,即使法治崩溃,只要我拥有x%的机器智能,我在未来的无政府状态中就会有x%的影响力。但这只在期望中是真的,实际的权力分布可能会随时间发生变化。

Christiano承认价值观可能发生革命性变化的可能性:"向机器智能的过渡也可能是影响力大幅转移的机会——也许在很大程度上转移到具有异类价值观的机器。"我要补充的是,除非可行且能在出现超人类智能后迅速发展出强大的合作,否则即使异类机器价值观接管了世界,竞争、战争和"政治革命"可能会继续。

个体目标漂移与分布变化

我对Christiano (2014)的回复论证了在多极机器控制的未来中,价值观的分布不太可能是静态的。然而,如果我们假设争夺控制权的个体价值观是固定的,那么可以争辩说,至少据我们事先所知,给定价值观的预期控制量大致与其在现在或不久的将来的资本、财富、权力等份额成正比。因此,即使未来的确切轨迹非常不可预测,努力促进某些价值观而不是其他价值观仍然可能对远期未来产生重大的预期影响。

对于对远期未来产生明确预期影响的想法来说,更令人不安的是竞争的个体价值观本身可能会发生变异的可能性——无论是因为进化压力、自我改进过程中的不完美目标一致性,还是仅仅是随时间的随机变化。如果今天存在的大多数价值观在1000年后完全消失,并被新的价值观所取代,那么简单的"现在拥有更多权力意味着以后拥有更多预期权力"的论点似乎是误导性的。

摘要

目录

引言