摘要
我目前认为,未来的通用人工智能(AGI)最有可能看起来像是当前计算和治理趋势的放大版。一个合理的设想未来的默认方式似乎是延伸我们今天所看到的各种事物。
注意事项
在大多数主题上写出任何原创内容都非常困难,包括AGI和未来主义的主题。毫无疑问,我在这里所说的内容之前已经被讨论过无数次。例如,我的立场在许多方面与Eric Drexler的"综合人工智能服务"框架相似(我只读过两篇摘要,而不是原始专著),尽管我不同意Drexler的所有具体观点。
我还应该指出,在2010年代的后半期,我并没有密切关注AGI和AGI安全方面的文献,所以我在这里写的内容可能有些过时。这篇文章应该被视为一些想法的随机倾倒,而不是彻底研究的产物。
AGI与狭义AI有显著区别吗?
在关于AGI的科幻小说中,一个常见的比喻是在某个时刻,一个简单的自动机"醒来"或"变得有意识",然后突然拥有了类似人类的通用智能。虽然我怀疑很少有严肃的思想家持有如此简单化的观点,但关于狭义人工智能(AI)在发展成为完全AGI的过程中是否存在一个相对明确的转折点,确实存在一个更合理的争论。
我认为通用智能与狭义智能相比确实有质的不同。人类可以阅读几乎任何主题的文章并理解它。无论是兔子还是当今的笔记本电脑都无法做到这一点。例如,兔子和笔记本电脑无法仅仅通过观看足够多的数学讲座视频就学会微积分。(当然,也可能存在人类思维无法接触到的更高层次的通用智能。)
然而,我个人怀疑从"狭义"到"通用"智能的转变是渐进的,是认知能力多个小步骤的结果。这可能是争论中的核心分歧点,双方都没有决定性的论据。我认为我支持渐进性的主要直觉来自于这样一个事实:智能认知,就像经济或当今的计算机一样,似乎是大量组件以复杂方式相互作用的结果。这与人造飞行器或核武器的发明不同,后者基于对相对简单的物理原理的洞察。人造飞机的性能在短时间内出现了不连续的质的飞跃,但据我所知,世界经济规模或人造计算机的能力从未出现过类似的急剧跳跃。
我认为这是因为即使你在某一个维度上取得了巨大突破(例如,某个行业在短时间内爆炸性增长),这个维度也只是更大整体的一小部分。例如,假设世界经济是100个同等重要的不同组成部分的总和。即使其中一个组成部分在一年内增长了10,000%,如果其他组成部分只增长了2%,那么该年经济规模的总体乘数仅为0.01 * 101 + 0.99 * 1.02 ≈ 2。
我预计智能系统能力的增长也会出现类似情况。事实上,这正是我们历史上所观察到的,无论是在信息技术部门的整体经济产出方面,还是在大多数特定任务(如语音识别或网络搜索)上狭义AI系统的表现方面。
换句话说,我预计狭义AI将逐步过渡到"AGI"。例如,DeepMind 2015年的Atari游戏AI比过去针对特定游戏的AI更通用,尽管它仍然是"狭义"的,因为它无法完成大多数其他任务。OpenAI 2019年的GPT-2语言模型足够通用,可以执行"基础阅读理解、机器翻译、问答和摘要 - 所有这些都无需针对特定任务进行训练"(Radford等人,2019年),尽管它在大多数其他方面仍然是狭义的。按照这一趋势,我们应该预期看到AI的通用性领域逐渐扩大,可能不会出现通用性突然跳跃的单一时刻。
将当前趋势延续作为默认模型
我认为,对我们技术未来最简单的模型是大致延续当前趋势,只是以更快的速度和涉及系统的复杂性不断增加。这个默认假设可能是错误的;在这个过程中可能会发生几个不可预见的黑天鹅事件。但除非我们有充分理由预期在某个时刻会出现某种特定的质变行为,否则关注类似默认模型的东西似乎是合理的。同样,应用于科学的奥卡姆剃刀原理在某种意义上经常是"错误的",因为在基础物理学之上的现实实际上相当复杂,但首先假设简单假说然后在证据迫使你更新时再更新它仍然是方法论上明智的。
特别是,我认为AGI的一个合理愿景是,它是人类生活各个方面逐步积累更多自动化的结果。这包括特定任务的自动化,如卡车驾驶或心理治疗,以及元级任务的自动化,如控制其他自动化系统。
这基本上就是我们的计算机的工作方式:它们有执行特定任务的程序(例如,办公软件或音乐播放器),以及协调/监控其他程序的程序(例如,操作系统或网络防火墙)。许多这些程序在后台静默运行,大多数人类用户甚至不知道它们在做什么。
这也是更大经济的运作方式:各行各业专门生产各种产品或服务,并相互交互。这些参与者之间的协调和监督由行业协会、政府、非营利组织等完成。
可以说,这甚至是人类大脑的工作方式。大脑是许多子系统的集合,这些子系统协同工作(有时紧密,有时松散)。人类在某种程度上可以被建模为"统一的主体",但这种抽象经常被打破,因为人类有许多相互竞争的目标、兴趣、情绪、忠诚等,有时一些占主导地位,有时其他占主导地位。同样,公司或政府在某种程度上可以被建模为统一的、理性的主体,但这种抽象无法解释内部政治争端、社会运动的兴衰等。
因此,我认为未来的AI系统在某种程度上也可以近似为具有各种目标的理性主体,但至少在短期内,这些系统可能是复杂底层交互的涌现结果,没有任何总体效用函数被写下来。(这些系统最终可能会致力于使其目标明确化。类比而言,人类创造具体的法律、使命宣言和伦理系统来形式化他们的目标。)
在这个框架下的AI安全
如果AI的未来看起来像是当前趋势的延续,那么"AI安全"的未来也可能看起来像是现在发生的事情的延伸。
自动化可能会继续主要通过实验来测试,看系统是否表现得适当。随着自动化的通用性增加,可能会越来越难识别AI特定故障模式的根源。有时会修复根本原因,有时人们可能会开发权宜之计来解决这些问题,比如使用额外的自动化来监视和防范不良行为。
试图通过实际实验来实现AI安全的一个担忧是所谓的"背叛性转变":随着AI变得越来越复杂,它们可能会做一些表面上让人类所有者满意的事情,同时秘密策划在获得更多权力后做人类不想要的事情。基于当前趋势预测未来的框架应该同意欺骗是一个问题,因为它在今天已经很普遍。人类(甚至其他动物)经常以大大小小的方式相互欺骗。软件也可能具有欺骗性。例如,一些恶意软件在执行合法目的的同时,还在幕后做一些见不得人的事情。
通常,恶意软件研究人员在虚拟机环境(VME)中研究潜在的恶意程序,以避免感染他们的主要计算机。Liston和Skoudis(2006)解释道(第4页):
因为许多安全研究人员依赖VME来分析恶意代码,恶意软件开发人员正在积极尝试通过检测VME来挫败这种分析。如果恶意代码检测到VME,它可以关闭一些更强大的恶意功能,这样研究人员就无法观察到它并制定防御措施。鉴于恶意代码在VME下的功能改变,一些研究人员可能不会注意到它更深层次和更阴险的功能。
我们看到越来越多的恶意程序携带代码来检测虚拟环境的存在。
这是背叛性转变的一个简单版本:在有人监视时表现良好,但在人们不注意时执行你真正的目标。
当然,到目前为止,几乎所有(如果不是全部)恶意软件的欺骗行为都是明确设计的。但似乎合理的是,复杂的学习系统也会偶然发现越来越复杂的欺骗行为。欺骗本身可能是一个相当渐进的概念,可以随时间增加复杂性,这与我的一般假设一致,即这些趋势将逐步增加。
设计本质上不太容易产生欺骗的AI算法可能是解决方案的一部分。然而,除非有我没有想到的创造性技巧,否则这个问题似乎相当困难,因为参与广泛学习和自我修改的复杂系统似乎本质上存在一些不可忽视的目标漂移风险。类比而言,即使你从小就给某人灌输一种意识形态,这个人最终也可能会否认他过去的信仰。
因此,AI欺骗可能仍然是AI安全的一个障碍。这包括人为设计的欺骗(被灌输一套价值观但假装有另一套价值观的AI,例如为了渗透敌对组织)和人为意外的、自发出现的欺骗,这是由目标配置错误或目标漂移导致的。欺骗问题可能需要大量努力来检测和缓解。因此,我预计相当一部分AI安全工作将是当前计算机安全的延伸。欺骗可以通过自动监控系统和使用软件工具的人类安全分析师的结合来对抗,这些工具本身可能会在某种程度上增强AI。
我认为这与当今网络安全的工作方式是一致的。软件通常不是从头开始设计具有真正安全的架构和对所有可能漏洞的彻底研究。相反,人们编写复杂的软件,在某种程度上进行测试,开始使用它,注意错误和安全漏洞,编写补丁,再次注意漏洞,再次修补,如此循环。这可以通过各种其他安全措施来补充,既可以防止漏洞,也可以限制漏洞发生时的损害。很少有软件系统从一开始就具有完全的安全性(或者说,永远不会)。
虽然加密算法等网络安全的个别组件可以在数学上证明其有效性,但实际的网络安全整体上是一个巨大的混乱。在现实世界的计算机系统中,"没有完美的安全,只有不同程度的不安全"(Salman Rushdie,引自Singh 2012)。鉴于未来的AI系统将比大多数当前软件更复杂、更加亚符号化,我预计AI安全将更加困难。当然,人们也将拥有更强大的工具来监控其他软件系统,以检测无意和有意的不当行为。
我认为Eliezer Yudkowsky会不同意上述讨论。在Harris(2018)中,Yudkowsky说(在1小时31分34秒处):
在防御试图闯入你电脑的小段代码和防御比你更聪明的东西之间没有连续性。这些是完全不同的领域和制度,以及如何开始思考问题的分离的知识体系[...]。我们不会通过构建更好的防病毒软件来获得对超级智能的自动防御。
当前的恶意软件和超级智能之间确实存在巨大的鸿沟,但我认为它们之间的路径可能会是某种程度上连续的,因为AI会以渐进的步骤变得更聪明。随着更强大的AI的出现,也会出现更强大的工具来理解、监控和控制AI——不仅仅是防病毒软件,还包括调试器、可视化工具、机构实践等。
历史已经表明,针对人类级别智能主体的"防病毒扫描"的高级版本是可行的。其中一个例子是东德的斯塔西,它"被描述为有史以来最有效和最具压制性的情报和秘密警察机构之一。[...]斯塔西为每166名东德人配备了一名秘密警察[,]如果算上兼职线人,斯塔西每6.5人就有一名特工"(维基百科"斯塔西")。当然,这种极权压制和反恶意软件之间的抽象类比不应被视为淡化前者对人类受害者造成的恐惧和残酷。如果说有什么的话,这种比较提出了关于使用武力控制接近人类水平或人类水平智能的AI的伦理问题。与其寻找和消灭叛逆的AI,从伦理角度来看,似乎更可取的是防止AI在一开始就发生目标漂移,只要这是可能的。人们也可以致力于构建不介意被终止的AI,这是AI对齐中"可纠正性"概念的一部分。当然,在复杂的AI中确保这一特性可能很困难。
在上述讨论中,我主要关注了欺骗问题,尽管AI对齐涉及许多其他挑战。我预计这些其他问题也会以类似的方式通过基于实验的迭代方式来处理,随着失败被注意到、研究和解决。话虽如此,AI对齐社区已经在做的那种概念性工作当然可能在提前引起人们对这些主题的注意方面相当有帮助。
长期展望
我确实担心我描绘的AI系统图景可能过于拟人化且缺乏创造性,因为它如此接近人类组织的运作方式。人类社会有工人,有监督和协调其他工人的人,有检测问题的系统,有检测欺骗的系统。通过某种奇迹,所有这些主体的相互作用,一些主体监视和阻止其他主体的努力,产生了一个功能性的(如果不一定是道德的)整体社会。我预计机器智能将继续大致相似的趋势,有许多相互作用的主体扮演各种角色,许多彼此冲突,没有全局效用函数被优化。
从很长远来看,这可能会改变。人工心智可以以生物生物难以实现的方式被控制。例如,对于软件来说,可以大幅重写心智的架构,调整参数,将心智重置到以前的状态,并实现对AI运行的内部计算的相对完整监视(尽管在掩饰这些内部计算方面也会越来越复杂)。也许一个相互作用的AI社会最终会围绕一个更有组织的、自上而下的社会结构进行协调,以结束竞争。
基于过去的类比来预测未来并不排除一小群参与者"统治世界"的可能性。例如,如果美国在1945年拥有核武器垄断时旨在这样做,也许它本可以统治世界。而且在20世纪90年代以来,美国可以被视为全球霸主的程度上,它确实某种程度上统治了世界。小集团甚至个别强人在历史上曾多次夺取整个国家的控制权。虽然历史上没有过去的领导人保持永久控制,但AI的未来可能会有所不同,因为机器智能比人脑更能被完全重新设计。类比而言,除了恶意软件或极端软件错误的情况外,我们的计算机从不"反抗"我们,因为它们被设计成不这样做。谷歌和Facebook从未失去对它们使用的工作机器集合的霸权,即使个别机器可能不时"失控"。
这个框架的影响
我勾勒的框架预测,AI的发展将逐步进行。AI性能将逐步提高,这将对整个社会产生连锁反应。各种安全和安保风险将被识别,补丁和预防措施将被实施。狭义AI的进步将彻底重塑世界,因此,政府、学者、记者和其他人将大量关注这些主题,使得一小群利他主义者难以产生过大影响。
复杂系统难以预测,而我设想的AI未来将是一个极其复杂的系统,有大量相互作用的组件。这使得利他主义者难以知道如何积极影响这样的未来,尽管非常广泛的趋势可能仍然可以辨别。例如,更大的国际合作可能会以不完全随机的方式改变AI发展的动态。如果社会更关心某个道德价值,这个价值似乎更有可能转移到AI身上(尽管现有的道德价值能否在未来几个世纪的动荡中完整存活下来是值得怀疑的)。
有人可能会争辩说,即使上述情景最有可能发生,从功利主义的期望值来看,关注改善那些未来不那么混乱、高层次的AI安全理论进展相对影响更大、AI来得足够快和安静以至于不会引起大量主流关注的AI情景可能会有更高的价值。这是一个合理的观点,尽管我对此感到不安。与其押注于我认为相对不太可能的AI情景,我宁愿更多地思考AI情景的整体空间,以便在采取针对特定情景的行动之前更好地掌握可能性的全貌。(其他已经更多地思考过这些问题的人可能已经进入了"让我们针对特定情景采取行动"的阶段。)