谨慎量化

作者:Brian Tomasik

首次发布:。最后重大更新:

摘要

量化和指标优化是减少痛苦的强大工具,但必须谨慎使用。许多研究可能存在噪音,看似反直觉的结果可能确实是错误的,因为它们对实验条件敏感,或存在人为错误、测量问题或其他许多原因。有时你可能关注了错误的指标,盲目优化指标可能是危险的。设计一套稳健的指标实际上是一项非常复杂的工作,需要理解问题空间,有时比必要的工作量还要大。人们可能倾向于过分强调统计数据而忽视洞察力,使用大样本而不是小样本就足够了。最后,当你可以使用简单直接的解决方案时,要三思是否要使用听起来很酷或令人印象深刻的复杂方法。

目录

引言

有效利他主义(EA)和理性主义运动热爱量化。我们赞美数据指导决策的力量,有时它会告诉我们意想不到的结论。我们喜欢指标让我们能够以更强大和高效的方式优化良好结果,而不仅仅依赖直觉或随机的慈善行为。这些观念不仅仅局限于我们;它们也为商业、科技等领域的许多人所共享。

我对上述观点很热衷,但在某些方面,我觉得人们有时过分重视正式研究,而忽视了轶事和常识。以下我所说的一切都是已知的,所以请将此视为我的想法总结,而不是新颖的贡献。

"95%置信度"并不是95%置信

有时量化者会对研究结果与常识相悖感到兴奋。他们说:"你看,你天真的直觉是不可信的。朋友,要么用数字,要么走人。"他们提出一项p值<0.05的研究来证明一个令人惊讶的结论。

这里存在许多众所周知的问题。一个是发表偏倚。即使没有这个问题,也有很多方法可以处理数据或统计测试以获得显著结果。例如,在回归分析中,如果原始变量没有得到显著结果,可以尝试取对数值看是否会变得显著。继续尝试直到找到有效的测试和转换方法。还有一些方法可以设计实验以达到你想要的结果。行业资助的药物研究比独立研究结果更有利,这暗示了可能性。

如果你自己做研究并小心避免上述问题呢?即便如此,你的结果可能对研究的特定条件或数据集过于敏感。我多次看到这种情况:人们在一种实验配置中显示出统计显著的结果,但在只有微小变化的略有不同的配置中,结果就消失了。它甚至可能随着时间的推移而消失。同样的想法也适用于在实验室中以非常特定的方式、在特定时间、特定条件下测量特定变量的研究。结果可能对许多微小因素敏感,当你稍微改变配置时,结果就消失了。当你有大样本量时尤其如此:有足够大的样本很难不得到统计显著的结果,即使捕捉到的只是实验配置中由于噪音造成的不可约减的偏差。我甚至见过将对照组与同一对照组进行比较的实验,在大样本量下显示出统计显著的差异。

人们说"大多数已发表的发现是错误的",意思是它们无法复制。我不会深入讨论这在整个科学领域中的真实性,但肯定有一些领域是如此。如果你能在各种条件和指标下复制结果,那么你就处于相当不错的状态。

不要相信你看到的一切

我经常看到一些看起来好得(或坏得)不真实的结果。进一步调查后,几乎总是发现确实有问题使表面的发现无效。可能是系统不稳定。可能是我错误配置了实验。可能是我使用了错误的基线。可能是指标的计算方式与我想象的不同。可能存在一种总是出现的趋势,而不是由于我的特定改变造成的。等等。

在验证实验配置、程序和数据分析方面,严谨程度标准各不相同,但即使是谨慎的人,如果他们回过头来检查自己的工作,也会发现可能对结果产生重大影响的错误。实验复制之所以重要,原因之一是它可以减少人为错误以及环境和方法带来的噪音的影响。

因此,如果你看到呈现的结果听起来很奇怪,请保持怀疑。不要压制你的直觉。你大脑中神经网络的输出不一定"不如"一项可能存在未被发现缺陷的研究结果"严谨"。

统计功效和指标选择

有些指标无论你的干预有多好,都无法明显改变。有时一个变化在局部层面上可以毫无疑问地被证明是好事,但在更高层面的指标上仍然没有影响。这并不意味着你的局部变化毫无价值。这可能意味着更高层面的指标不够敏感,无法检测到你要寻找的东西。代理指标是不可避免的,在它们允许你更快地迭代并减少测量过程中的噪音的程度上,请使用它们。

如果一项研究发现某个特定干预X与某个广泛的人口变量Y"没有相关性",我并不感到惊讶。你可能没有在可观察的水平上进行测量。

坎贝尔定律

我对坎贝尔定律的解释比较宽松,我认为它指的是盲目优化指标可能会破坏原本目的的普遍现象。当人们批评定量分析"过于狭隘"和"只见树木不见森林"时,通常就是指这一点。

有人告诉你"高GPA是职业成功的绝佳预测指标",所以你最终过度学习课程,牺牲了其他重要因素,如建立人际网络、职业研究、对如何在世界上做好事的哲学分析,以及尝试新体验,这些体验将塑造你对生活的看法,教会你"你从未知道你从未知道的事情"。

有时坎贝尔定律看起来像是"玩弄系统",即找到指标中的漏洞,让你可以"欺骗"潜在的目的。你的老师惩罚上课时眼睛不盯着黑板的学生,所以你在乒乓球上画上白点。第三方公司因为让人访问素食视频登陆页面而获得报酬,所以它生成了大量垃圾链接指向你的网站,或者鼓励机器人流量,等等。这种情况在委托代理问题中很常见。

话虽如此,有时坎贝尔定律并不那么明显。有时你不知道指标存在什么问题,特别是如果你从未深入研究它是如何运作的。所以最好通过查看一些样本案例来保持指标的基础。还建议开发尽可能独立的多个指标,即使它们跟踪的是整体目标的略有不同的组成部分。

最后,有时指标根本不值得花费精力。有些事情太难量化了,也许我们的大脑已经做得足够好了。有时试图遵循一个指标最终会造成更多伤害而不是好处,因为你修改了不需要修复的东西。有时你浪费时间为一些显而易见的事情设计看似复杂的指标。有时你制定的指标只是包含了你本来就要做的事情,只是掩盖了这一事实。

一些指标非常强大。但这并不意味着将其他东西变成指标就会释放同样的力量。有些情况比其他情况更适合使用明确的指标。此外,指标很难。它们需要时间和注意力才能做对。一个用于操纵汽车的简单指标可能会导致你开进沟里,而你本可以只看着前方就能保持在路上。使用理智检查。

取样

假设你有一个包含10,000人口统计信息的数据集。你想了解样本中有哪些类型的人。一种方法是对整个数据集运行一堆统计测试和散点图。另一种方法是用眼睛查看10-20个人,了解他们是谁以及他们为什么做他们做的事。有时查看一些具体例子可以让你获得比世界上所有回归系数更多的洞察力。有时除非你亲自接触具体案例,否则你不会注意到正在发生的故事。当然,如果你能两者兼顾那就太好了。但不要认为统计数据一定更好,也不要仅仅因为它更酷就只做统计分析。

有时我们可以获得真正的洞察力,有时则不能。有时一个系统太复杂了,你编造一个故事来解释为什么会出现某个结果,但这只是数百个可能故事中的一个,作为一个假设,你的故事在下一次无法重现。但有时洞察力确实解释了很多,一旦你找到它们,数字就开始变得有意义了。有时我发现,当你为了研究一个现象而反复查看宏观统计数据时,查看一些微观层面的案例研究会有帮助,因为这些可能会提示你在宏观层面上从未想过要测试的趋势/错误/反例。

将统计抽样应用于阅读也可能是一个好习惯。与其从头到尾读一本书,不如读10本书的十分之一样本。当然,阅读与仅仅评估人口的定量特征不同,因为基于预期信息价值的探索-利用动态会介入。但使用样本来避免完美主义的低效的想法是类似的。

抽样也可能是个好主意,因为有时高功率的统计分析根本不值得花费精力。你可以在<45分钟内查看10-20人的资料,但要进行统计分析,你需要设置工具、格式化数据、进行适当的转换等等。如果你已经准备好了所有这些,那很好,或者如果你想把工具准备好以便定期使用,那也很好。但如果这是一次性的工作,你永远不会再做(例如,对数据进行一些不常见的特殊解析),那么考虑一下你是否需要分析整个数据集。样本可以给你一个很好的基本图景,大多数时候,你只关心有大效应量的趋势。通常你不需要担心优化到个位数的精度。

有趣性偏差

相关地,我经常看到人们倾向于不必要地使事情复杂化,因为这样问题更有趣。这可能适用于实验设计、干预方法或统计分析。例如,为调查编写一个网络工具,将数据读入定制的数值分析程序进行统计处理,而实际上被调查的人数只有20人,统计数据本可以在10分钟内使用Excel或在线置信区间计算器计算出来。当t检验就足够时,不要使用花哨的统计测试。(感谢Bing的一位朋友向我强调这一点。)在尝试简单的方法并确定需要复杂性的具体弱点之前,不要引入一堆调整和特殊情况。正如人们所说,"复杂性会杀死"——在执行时间、可调试性和维护成本方面——所以"保持简单,笨蛋"。

现实世界不是学术界,你只有在展示有趣的东西时才能发表。减少动物痛苦是关于做有效的事情,即使它是一件无聊、简单的事情,而不是你建立的宏大理论或复杂的自适应系统。人们自然倾向于对复杂的事物印象深刻,所以要抵制这种诱惑:鼓励那些以更简单的方式达到相同结果的人。

我有一个朋友曾经说过,"数学嫉妒是一种疾病。一种疾病。"虽然我喜欢数学作为娱乐,但我意识到大多数时候,复杂的数学比简单的数学要危险得多,因为(a)它是不必要的,(b)它是不透明的,(c)它给人一种虚假的复杂感,(d)人为错误的可能性很高。你为决策分析增加的每一个额外变量,为了给出1%的额外细微差别,都会因为额外的不确定性和连贯性而使最终结论的预期准确性降低5%。(我刚刚编造了这些数字,但它们说明了我的观点。)

95%置信度并非必要

有时人们抱怨一项研究因为"样本量太小"。这种反对意见不重要有两个可能的原因。

第一个是人们可能没有很好的直觉来理解样本量的重要性。在查看样本均值时,标准误差随样本量的平方根减小。因此,样本量为16(sqrt(16) = 4)的标准误差只有样本量为4(sqrt(4) = 2)的一半。样本量为100的标准误差只有样本量为25的一半。

第二个原因是,如上所述,大多数分析不需要高精度。对于初步调查,你通常只关心数量级或者可能是至少相差2倍的差异。你不需要1000个数据点来做到这一点。此外,标准的统计显著性水平通常高于你需要的水平。当抽样成本很大时,你不需要使用95%的置信度。单个数据点可以更新你的贝叶斯先验概率,有时甚至可以更新很多。在日出问题中,如果你从1/2的先验开始,那么在太阳升起的第一天之后,你的后验概率已经是2/3。到第8天,它是9/10。之后你得到的任何额外保证大多数时候都是不需要的。

上述观点的一个实际例子是,当你比较素食小册子、说服性文章或网站布局时,不要立即跳到大型调查或网站优化工具。考虑询问10个人的反馈。或者5个人,甚至只是另一个人。额外输入的增量价值迅速下降。如果你向一个人询问十种不同事物的反馈,这比向10个人询问其中一种事物的反馈要有用得多。

有时较小的样本量有助于减少偏差。例如,假设你试图评估某个职业的薪资。一种方法是查阅政府计算的标准薪资表,这些表(我假设?)使用非常大的样本。但这些可能会产生误导,有时甚至会相差2倍、3倍或更多,因为这些指标可能无法捕捉到所有相关的东西(例如,奖金、附带权益、股票期权)。此外,这些指标是相对于某个未知的人群平均水平,而你可能认识一些更接近你自己能力和抱负水平的人。我敢打赌,询问3个在该行业工作的人你可以期望赚多少钱,会给你一个比查看可能有偏差的整个薪资调查更好的估计。在偏差-方差权衡中,"询问3个人"的方法方差更高,但我怀疑偏差的减少超过了这一点。

优化者的诅咒

我关于小样本量的说法适用于通常情况,即当你进行初步分析或处理大效应量时。如果你已经选择了一个特定的问题并想深入研究以确保成本效益是否如预期,那时你开始更多地担心统计显著性。就像多重假设检验的问题一样,如果你用无偏但高方差的方法评估一堆原因,有些原因可能仅仅是偶然看起来很有前景。在这一点上,你会想要增加样本量并追求独立的调查线索,以确保你对所看到的东西是正确的。当决策影响重大时,证据标准更高。例如,动物慈善评估者的慈善推荐应该遵循更高的标准,而不是个人的初步筛选分析,因为验证成本效益的额外努力将影响未来大量的捐款。

如果你使用适当的贝叶斯概率方法,那么干预的预期价值本身就会受到它所拥有的证据量的影响,正如Holden Karnofsky在一篇著名的博客文章中解释的那样。这篇文章因假设正态/对数正态分布而受到正当批评,但用先验约束估计的基本思想是无可争议的。它基本上是在说,"不要天真地使用无偏的最大似然估计(MLE)。"(最大化贝叶斯后验意味着最大化先验乘以似然,而不仅仅是似然。)

所谓的"优化者的诅咒"是一个简单的概念,在Holden的文章之前就已经存在了很长时间。

反馈

关于这篇文章的评论,请参见原始的FelicifiaLessWrong讨论帖。

后记:我对营养研究持谨慎态度

健康新闻就像坐过山车:一项研究说X对你有害,下一项研究又说X对你有益。头条新闻往往是那些最令人惊讶的发现,但不幸的是,这是一个报道大量噪音而非信号的配方。有时统计数据是原始报告的,没有任何尝试控制混杂因素,比如已婚人士更快乐或素食者更聪明。

趋势每十年都在变化。有些饮食是高碳水化合物的,有些是低碳水化合物的,还有一些是介于两者之间的。不同的权威推荐不同的运动方案和睡眠时间。有些甚至可能对社交互动、面对面的友谊和心理习惯提出建议。

在关于健康的科学研究领域,一知半解可能是危险的。通过阅读几篇最近宣扬营养Y或饮食Z好处的文章,我们可能会高估Y和Z相对于影响健康的其他数千个复杂变量的重要性。如果你试图根据相关考虑因素的一小部分将生活优化到异常方向,你可能经常会造成更多伤害而不是好处。

我的建议是对非显而易见的营养建议持谨慎态度。我会专注于非常主流的建议,比如"吃常识性的健康食物"、"适当运动"、"睡眠充足"和"保持积极思考"(也许还有一些更具体的建议,比如作为素食者要摄入足够的维生素B12,以及服用医生开的药)。每当我试图遵循营养和健身领域"应该如何做"的指导原则时——认为我通过遵守研究结果而"更科学"——结果总是让我感觉比以前更糟,只是增加了压力和内疚。没有人比你的身体和大脑更了解你身体和大脑的需求。你有大量的传感器和神经网络来监测生理变量、维持平衡并修改身体感觉。你不需要一项研究来告诉你睡眠不足是不健康的;只需遵循你身体对睡眠的渴望。你不需要一项研究来说明一次性摄入大量糖会导致胰岛素激增;你可以自己感受到突然的糖分高峰然后崩溃到糖分低谷是多么不愉快。同样,你可以自己感受到运动会给你更多能量,帮助你思考得更好,让你感到压力更小。

身体是一个极其复杂的系统。认为你比它更了解它需要什么,似乎比潜在的好处有更大的下行风险。当然,身体(不像你的笔记本电脑)也对变化有很强的适应能力,所以有空间让它适应不同的生活方式,但重要的是不要走极端。一般来说,"做正常人做的事"的启发式方法比构建一种复杂的替代方式更安全。例如,虽然我不了解细节,但我认为Ray Kurzweil每天服用约200粒药丸可能造成的预期伤害大于益处。同样,除非你真的知道自己在做什么,否则修改计算机的系统文件更可能搞砸事情而不是解决问题。

我基本上做任何感觉良好的事情,同时考虑短期(几分钟内)和长期(几小时/几天内)的副作用,并稍微倾向于更健康的食物和运动。这似乎比遵循任何具体建议都更有效。我不会过度食用垃圾食品,部分原因是这样做会让我感觉不好(糖分激增、感觉饱但没有营养等)。我锻炼主要是因为在锻炼期间和之后感觉更好。我睡很多觉是因为这让我感觉最清爽和精力充沛。我通常对情况持积极态度,因为很明显这让我更快乐。当然,有空间尝试新事物的建议,但如果一个建议不起作用,那就忽略它,即使"科学"说它对你有好处。

当我看到"科学家发现最好只睡7小时"这样的醒目标题时,我会畏缩。这显然是一个统计假象,可能是由于没有区分相关性和因果关系。正如Sigrid Veasey解释的那样:"你永远不可能'睡太多'。当你睡够了,你就会醒来。"如果我每晚只睡7小时,我会感到疲劳、烦躁和压力。我应该认识到这些迹象并意识到我需要更多睡眠,而不是假设"科学"比我身体内部信号更可信。