为什么要最大化期望值?

作者:Brian Tomasik

首次撰写:2007年秋。最后重大更新:2016年4月7日。

摘要

标准的贝叶斯决策理论告诉我们要最大化我们行动的期望值。a例如,假设我们看到一些小猫被困在树上,我们认为拯救n只小猫的价值是拯救一只小猫的n倍。那么,如果我们面临两个选择:要么确定地救一只小猫,要么有50%的机会救三只小猫(如果失败,我们就救不了任何小猫),那么我们应该尝试救那三只小猫,因为这样做的期望值是1.5(= 3*0.5 + 0*0.5),而救一只小猫的期望值只有1(= 1*1)。但为什么是期望值呢?为什么不是最大化概率和价值的其他函数呢?我在这篇文章中提出了两个直观的论点。首先,在某些情况下,最大化帮助的生物数量的期望值等同于最大化任何给定生物被帮助的概率。其次,即使在不是这种情况的情况下,大数定律通常也会保证从长远来看会有更好的结果。

目录

一个虚构的例子

一种未知的疾病在一个小岛上的20,000名居民中爆发。这种疾病具有高度传染性:在任何人发现之前,它就已经传播给岛上的每个人。幸运的是,由于该岛与外界隔绝,这种疾病不会传播到世界其他地方。不幸的是,对岛民来说,这种疾病也是100%致命的,每个人现在只剩下三天的生命。

世界医疗界没有药物可以治疗这种疾病,甚至无法缓解其致命的副作用。尽管如此,医疗队还是被派往该岛,以提供姑息治疗。医疗队有一个有限的预算10,000美元,用于购买止痛药,如果成功,这些药物将减轻死于这种疾病的痛苦。作为医疗队的负责人,你正在决定购买两种可能的药物中的哪一种。

由于你认为,无论是哪个岛民经历死亡前的无意义痛苦都同样糟糕,你认为成功治疗n个人的价值是成功治疗一个人的n倍。你这样推理:"如果我们购买SureRelieve,我们保证可以防止10,000/2.04 = 4,900人遭受痛苦。如果我们选择CheapRelieve,我们将能够购买10,000次治疗,但不清楚我们能帮助多少人。由于每次治疗有50%的成功机会,帮助人数的期望值是10,000*0.5 + 0*0.5 = 5,000。这高于4,900,所以我们应该购买CheapRelieve。"

但如果失败的药物比预期的多得多怎么办?如果说,只有4,800个有效呢?那么我们就"赌掉"了本可以帮助100人的治疗。坚持安全的选择不是更好吗?

观点1:进行投票

假设我们不提前决定哪些岛民将获得我们购买的治疗。那么如果我们有t次治疗,任何个人获得治疗的概率是t/20,000。然后我们对岛民进行投票,询问他们是否希望医疗队全部购买SureRelieve,全部购买CheapRelieve,还是两者的某种组合。

如果岛民投票选择能最大化他们被成功治疗的概率的选项,那么他们都会投票购买全部CheapRelieve。这源于一个简单的

定理:假设有N个生物将经历一定程度的残酷痛苦,除非他们得到帮助。让T是一个随机变量,表示从N个生物中随机选择的成功避免痛苦经历的生物数量。那么任何生物避免痛苦的概率是E(T) / N,其中E(T)表示T的期望值。特别是,无论T的方差如何,避免痛苦的概率总是随着E(T)的增加而增加。

证明

Prob(被帮助) = Σt Prob(T=t) * Prob(被帮助 | T=t)
= Σt Prob(T=t) * t/N
= (Σt Prob(T=t) * t) / N
= E(T) / N.

我们也可以将这个思想应用到之前的小猫例子中。假设你是其中一只小猫,你在决定是否希望你的潜在救援者救一只小猫,还是有50-50的机会救所有三只小猫。在前一种情况下,你被救的概率是1/3。在后一种情况下,如果救援者成功,你被救的概率是1,如果失败则是0。由于这两种情况的可能性相等,你被救的总体概率是(1/2)*1 + (1/2)*0 = 1/2,这比1/3大。

我应该指出,在实践中,像岛民这样情况下的人可能实际上不会选择最大化他们被帮助概率的选项,也许是因为模糊厌恶,如埃尔斯伯格悖论所示。不知道总共有多少成功的治疗可能比知道实际的治疗数量但不确定谁会接受治疗更模糊。

观点2:大数定律

上述观点在潜在利益分配相等的情况下效果很好,因此人们只关心他们获得利益的概率。但是在潜在利益不平等的情况下呢——例如,防止某人感冒与防止某人感染疟疾相比?显然,人们仅仅选择最大化获得某种治疗概率的选项是不可取的,因为,例如,1/2的概率避免普通感冒显然不比1/3的概率避免疟疾更好。我们需要对不同的结果施加一些效用函数,指定疟疾预防比感冒预防好多少。

如果我们在一群最大化个人期望效用的人中随机分配感冒预防和疟疾预防,那么不难证明他们会更喜欢最大化整个群体期望效用的治疗方法。但这是在回避问题,因为我们需要理解为什么人们会想要最大化他们的个人期望效用。

通常提出的理由是,当对某个随机事件反复做出决策时,最大化期望值使得从长期来看,你很可能会最大化实际的平均值。这源于大数定律,它说如果我们进行足够多的不相关随机试验(例如,抛硬币足够多次),我们可以变得非常确定,我们在试验中观察到的实际平均值(例如,我们掷骰子的平均值)将尽可能接近期望值(在这种情况下是3.5 = 1*(1/6) + 2*(1/6) + ... + 6*(1/6))。b

在岛上疾病的例子中,CheapRelieve治疗的人数是10,000个随机结果的总和。这是一个"大数",这意味着实际治疗人数与5,000人显著偏离的概率很小。事实上,CheapRelieve成功治疗的人数少于SureRelieve的机会只有2.3%。c

混合策略呢?

例如,为什么不花5,000美元购买SureRelieve,5,000美元购买CheapRelieve呢?采用这种策略,你可以购买2,450次SureRelieve治疗和5,000次CheapRelieve治疗。预期帮助的人数是2,450 + 0.5*5,000 = 4,950。在这里,我们购买了一点"保险"来防止帮助的人数极低,但代价是失去了实际帮助更多人的机会。即使在这里,我们的混合策略帮助的人数多于风险更高的策略的机会也只有21%。d

如果我们将不到50%的预算用于SureRelieve,这种期望值的差距会缩小,但我们的保险也会随之减少。我看不出有任何理由偏好混合策略:如果购买一些CheapRelieve会比不购买CheapRelieve更有帮助,那么购买全部CheapRelieve会更好。如果只有10,000人接受治疗,购买全部CheapRelieve相对于大部分CheapRelieve的改进很难看出来,那么考虑10万亿或10谷歌。在这些情况下,购买全部CheapRelieve几乎可以保证你会帮助更多的人。

含义

现在考虑以下情况。你再次成为医疗项目负责人,你发现你又得到了51美元的额外捐款用于购买更多药物。如果你购买SureRelieve,你将保证帮助51/2.04 = 25人。如果你购买CheapRelieve,你预期帮助的人数是25.5。但现在,有44%的机会CheapRelieve会帮助更少的人,可能会少几个。你是否决定,与之前不同,这种情况风险太大,最好还是稳妥行事?

希望不会。额外的51美元并不是孤立的;它是整体预算的一部分。如果你一开始的预算是10,051美元,上面的无混合策略论点表明你应该全部用来购买CheapRelieve,因为这几乎可以保证一个更好的结果,可能会好得多。

无限结果

正如William Feller在《概率论及其应用导论》第251页所指出的,对于具有无限期望的随机变量,弱大数定律失效,因此长期平均论点不成立。同样,有时被引用的冯·诺伊曼-摩根斯坦期望效用定理也依赖于一个连续性公理,当我们允许无限大的效用值时(而不允许无穷小的概率),这个公理就不成立。

孤立行动呢?

长期平均的想法适用于我们的捐款或行动将成为更大行动集合的一部分的情况。但如果情况并非如此呢?如果我们遇到一次性的全有或全无的情况,我们不能确信大数定律会使事情总体上变好呢?

场景。你是宇宙中唯一的有知觉的生物,但你得知,明天下午5点,200万人将出现一小时,遭受残酷的折磨,然后再次消失。之后不会有其他有知觉的生物存在。

你发现一个有两个按钮的盒子,一个红色,一个蓝色。如果按下红色按钮,有百万分之一的机会阻止所有200万人被折磨;相反,他们会出现一小时并阅读报纸后消失。如果按下蓝色按钮,它将确定地允许200万人中的一个人避免折磨,而是阅读报纸。你只能按一个按钮,因为一旦按下这两个按钮中的一个,盒子就会永远消失。

在这里,关于长期平均的论点似乎不适用,因为事件没有重复。如果我们能提前调查即将出现的200万人,"进行投票"的论点会适用。然而,可以设计出更复杂的思想实验,在这些实验中,这一点也会失效。在这一点上,我愿意简单地接受期望值标准作为一个公理性的直觉:红色按钮可能实现的潜在好处是如此之大,以至于不应该放弃这个机会。然而,下面我将概述两个额外的论点。

论点1:量子多世界解释

量子力学的多世界解释(MWI)在某些物理学家群体中享有相对较大的支持,并提出了我认为比哥本哈根解释更连贯的观点。根据MWI,表面上随机的量子事件并不选择特定的测量结果;相反,所有可能性都在不同的平行世界中实现。例如,如果我们把一只猫放入一个盒子,连接到一个盖革计数器触发的毒气机器,并不是说猫有50%的机会被杀死;而是有两个不同的世界分支,在其中一个分支中,猫确实被杀死了。因此,期望值(使用与实现的各种世界分数匹配的概率分布)不仅仅反映可能发生的事情:它实际上计算了确实发生的事情。所以如果前面例子中红色按钮的效果是由量子结果决定的,那么这是一个"一次性"行动并不重要:在一小部分世界中,你确实阻止了所有200万人被折磨!

需要做两点说明。首先,关于计算"世界数量"的简单图景并不完全正确——参见,例如,Hilary Greaves(2004)的"在确定性多重宇宙中理解德意志的概率"第5.3节。真正重要的是由玻恩规则给出的测度。但这引出了关于测度到底是什么以及如何证明玻恩概率而不是其他测度(如基于奇数袜子的测度——见第3.2节)的问题。事实上,Greaves(2004)得出结论,在决策理论中使用玻恩概率可能需要"作为某种原始概念"(第34页),这让我们回到了原点(为什么是期望值?),除非可能在某种程度上可以引用其他基于MWI的直觉。

其次,即使我们同意应该使用玻恩规则概率,这也只适用于物理不确定性,例如电子是否会被测量为自旋向上或自旋向下,或者我大脑中的神经元是否会以导致我开车冲出路边的方式发射。理想情况下,我们希望根据各种世界的真实玻恩规则测度来最大化计算出的"期望值"。但我们的概率分布并不完美:我们对未来的大部分不确定性不是由于量子分裂,而仅仅是我们自己的无知,这可能与结果的真实分布测度相去甚远。此外,我们可能会分配不涉及具体结果的元级概率(例如,MWI是错误的概率是多少?这个或那个物理定律是正确的可能性有多大?)。MWI对最大化期望值的证明只在我们的主观概率分布与真实量子测度匹配的程度上成立。

论点2:规则功利主义

作为一般规则,如果每个人都遵循选择最大期望值行动的建议,那么大数定律意味着这将产生最好的结果,即使某个特定的个人行动没有达到预期的结果。我们应该成为我们希望在世界上看到的变化,并以身作则遵循这个规则。

应用到之前的红色按钮的例子,我们可以说,即使这是你唯一一次有机会按下按钮并可能防止折磨的机会,你也希望其他人在类似情况下表现得像你一样,因为总的来说,这将防止更多的人被折磨。

同样,我们应该根据人们做出当时看起来期望值最高的行动来赞扬他们,即使这个人在实际结果中运气不佳。

逻辑不确定性

上述论点并不涵盖每一种不确定性情况。例如,当你不确定一个逻辑真理,比如P是否等于NP时,答案在每种情况下、对每个人、在每个可能的世界中都是相同的。大数、量子不确定性和规则功利主义在这里帮不上忙。

当然,请记住,客观概率这种东西是不存在的:多元宇宙的"真实"概率是1,其他一切都是0。概率是我们用来表达自己无知的工具,把它们想象成代表不同结果的"实际随机性"是很方便的(尽管不存在"实际随机性"这种东西)。所以即使你基于P = NP的可能性做了一个赌注,而这最终被证明是错误的,它也可能被另一个世界中的其他人基于黎曼假设是错误的可能性而做的另一个赌注所补偿(而事实上它被证明是正确的)。(这些只是例子。这些问题都还没有被解决。)这种逻辑错误交易是否让你满意,部分取决于基于逻辑赌注的利害关系有多大,以及这些赌注在不同世界之间的相关性如何。

对我自己来说,我觉得某事的重要性程度应该与其概率成线性关系是很直观的。从这个角度来看,期望值最大化不需要进一步的证明;期望值就我认为可能结果的重要程度。

此外,本文开头的"进行投票"论点确实仍然适用于像P = NP赌注这样的情况,至少如果一个人的"被帮助的概率"是使用帮助者对P = NP的主观概率来评估的。例如,假设P = NP的概率是5%。行动A如果P = NP则会以某个固定数量帮助100人,如果P != NP则不会帮助任何人。行动B如果P != NP则会以相同的固定数量帮助2人,如果P = NP则不会帮助任何人。在需要帮助的大量N人中,一个人被行动A帮助的概率是5% * (100/N) = 5/N。一个人被行动B帮助的概率只有95% * (2/N) = 1.9/N。

脚注

  1. 用数学语言来说,这意味着我们考虑可能世界的样本空间(例如,一个可能的世界可能包括一只小猫从树上被救下,而另一个可能的世界可能涉及同一只小猫没有被救下)。然后我们决定一个从我们的样本空间映射到实数的目标函数(或者可能是超实数或另一个有序域)。然后我们考虑一些可能采取的行动集合(为简单起见假设是有限的)。对于每个行动,我们为我们的样本空间分配一个主观概率分布,该分布认识到采取该行动的各种可能结果(例如,如果我们的行动是呼叫消防员,这个概率分布会说小猫被救的可能性有多大)。因此,对于每个行动,我们的目标函数成为一个随机变量。标准决策理论说如下:如果对于每个行动,目标函数都有有限期望,那么选择期望最大的行动

    如果我们是享乐主义的功利主义者,那么我们的目标函数从可能的世界映射到基数效用分配。  (返回)

  2. 这在技术上是弱大数定律,它在比强大数定律更多的情况下成立。  (返回)
  3. 这个数字很容易通过二项分布的正态近似计算出来。对于CheapRelieve,mu = 0.5*10,000 = 5,000,sigma = [10,000*0.5*(1-0.5)](1/2) = 50,z = (4,900 - 5,000)/50 = -2。标准正态随机变量小于-2的概率是2.3%。  (返回)
  4. 考虑两个随机变量的差:一个是二项分布(10,000, 0.5),另一个是二项分布(5,000, 0.5)。混合策略表现更好的概率是这两个差小于2,450的概率。将两者都近似为独立的正态分布变量。两者差的方差等于各自方差之和:10,000*0.5*(1-0.5) + 5,000*0.5*(1-0.5),这意味着sigma = 61.2。mu = 2,500。我们的概率是标准正态随机变量小于-0.816的概率。  (返回)