ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

量化人的海市蜃楼:被统计谬误支配的世界

2021-11-16 10:01:13  阅读:114  来源: 互联网

标签:概率 错误 结果 研究 谬误 量化 海市蜃楼 数据 统计


量化人的海市蜃楼:被统计谬误支配的世界
原创 QIML编辑部 量化投资与机器学习 1周前

图片

量化投资与机器学习微信公众号,是业内垂直于量化投资、对冲基金、Fintech、人工智能、大数据等领域的主流自媒体。公众号拥有来自公募、私募、券商、期货、银行、保险、高校等行业20W+关注者,连续2年被腾讯云+社区评选为“年度最佳作者”。

作者:David H Bailey 编译:1+1=6

前言

可以说,今天的世界比以往任何时候都更受概率和统计科学的支配。“大数据”现在已经成为科学研究的标准,通过超级计算机分析,从卫星和实验设施中流入研究中心的数据达到了兆兆字节。“数据挖掘”现在是金融数学和商业管理的重要组成部分。众多的经过专业分析的民意测验影响着政治舞台。2019冠状病毒疾病感染率、免疫水平和 r0因素是每晚新闻的主要内容。

然而,大多数公众仍然对概率和统计的基本原理一无所知。更普遍的是,公众基本上没有意识到,基于概率和统计数据的论点充满了许多潜在的谬误和错误,除非相当小心,这些论点几乎肯定是无效的。结果,许多公众越来越容易受到那些冠冕堂皇的宣传的影响,而这些宣传无论以何种标准衡量都是虚假和误导性的。

可悲的是,即使是受过专业训练的人在这方面也经常犯严重的错误。一些常见的错误包括:

未能严格定义潜在的概率空间

未能证明为什么个别事件的发生具有相同的概率或是相互独立的

未能正确计算条件概率

事后计算概率(事后),并声称显著结果

只选择对假设检验有利的数据或测试,忽略其他的数据

对模型进行过度拟合,即在有限的数据集上测试大量的模型,并且只选择最优的结果

未能采用适当的统计度量指标

未能正确引用样本大小的错误界限

我们将在下面提供其中几个错误的例子。

概率论和统计学的一个教训是,如果严格应用,看似不可能的“巧合”可以发生,也确实发生了,其程度远远超过大多数人的认识。例如,一个常见的课堂练习是询问在一个班级里,比如说30个学生中,有两个或两个以上的学生同一天生日的可能性有多大。大多数学生认为这是不太可能的,但正确的概率是1-(1-1/365) x (1-2/365) x… x (1-29/365) = 0.706316。一般来说,只要班上有23个或更多的学生,就有可能出现一个或多个相同的生日。

谎言与统计

2020年的美国总统竞选就是滥用概率和统计数据的一个显著例子。正如 Steven Pinker 在他2021年出版的《 Rationality: What It Is, Why It Seems Scarce, Why It Matters》一书中解释的那样:

在特朗普及其支持者试图推翻2020年总统选举结果的尝试中,发生了一个计算概率的可笑的错误,这个计算的依据是毫无根据的选民欺诈指控。在一份提交给美国最高法院的动议中,德克萨斯州总检察长肯 · 帕克斯顿写道: “鉴于特朗普总统在2020年11月4日凌晨3点在乔治亚州、密歇根州、宾夕法尼亚州和威斯康星州等四个州的领先优势,前副总统拜登在这四个州任意一个州赢得普选的可能性不到1千万亿分之一。如果前副总统拜登能够同时赢得这四个州,那么实现这一目标的可能性将降至不到1千万亿分之一的四次方。”

帕克斯顿令人瞠目结舌的假设在计票过程中计算的选票在统计学上是独立的。但城市居民的投票倾向与郊区居民不同,郊区居民的投票方式也与乡村居民不同,亲自投票的选民也不同于那些邮寄选票的选民。在每个州中,投票权并不是独立的,而且各个州投票时的状况也各不相同。由于每个选区的投票结果都会在投票结果出来后公布,邮寄投票的票数也会在之后计算,然后再将不同的票数加起来,有利于每个候选人的票数可能会上升或下降。当帕克斯顿乘以来自四个州的虚假概率(这四个州的选票也不是独立的)时,他犯了一个明显的错误,因为无论密歇根州的选民如何摇摆,都可能影响美国的威斯康星州的投票。

另一个令人震惊的例子是在Leonard Mlodinow的书《The Drunkard’s Walk: How Randomness Rules Our Lives》,当中评论了1995年广为人知的对前美国橄榄球明星辛普森的审判:

控方决定将案件的开庭重点放在辛普森对妮可的暴力倾向上。在审判的前十天,检察官列入了辛普森虐待妮可的历史证据,并声称仅凭这一点就有充分理由怀疑他谋杀了妮可。正如他们所说,“一巴掌是杀人的前奏。”辩护律师利用这一策略来指控被告口是心非,辩称控方花了两周时间试图误导陪审团,而且辛普森之前殴打妮可的证据毫无意义。以下是德肖维茨(辛普森的首席辩护律师)的推理:在美国,每年有400万女性遭到丈夫或男友的殴打,然而在1992年,根据美国联邦调查局统一犯罪报告,总共有1432人,即每2500人中有1人被丈夫或男友杀害。因此,辩护律师反驳说,很少有人会打或殴打他们的同性伴侣,然后继续谋杀他们。

真的吗?是的。有说服力吗?是的。相关?没有。这个概率(1/2500)并不是一个 男子殴打妻子然后继续杀害妻子的可能性 ,而是已经被虐待者妻子继续被杀害的可能性。根据1993年《美国及其财产统一犯罪报告》 ,Dershowitz (或起诉方)应该报告的概率是这样的:在1993年在美国被谋杀的所有被殴打的妇女中,大约90% 是被虐待者杀害的。这个数据在审判中没有被提及。

金融中的统计错误

金融领域也充斥着滥用概率和统计数据的现象。事实上,这种错误现也尝尝导致许多策略回测收益很好,但实际投入市场时却常常失败。

这种失败的一个主要原因是过度回测,不管是否有意,相对于少量可用数据的数量,尝试了太多的测试。遭受这种统计过度拟合的模型通常捕捉到有限数据的随机模式,并没有捕捉到真正的信号。因此,当出现新的、真正的数据时,它们的表现往往不符合预期。令人警醒的后果是,投资领域所使用的模型和策略,包括许多面向个人投资者的市场营销策略,很大一部分可能仅仅是统计上的海市蜃楼。

统计错误频发的其他金融领域包括:

技术分析,尽管“技术分析”在金融领域广泛流传,但它与占星术一样完全是伪科学。难道真的有人相信,对“趋势”、“波动”、“突破模式”、“三角形模式”、“肩膀”和“斐波那契比率”(这些都经不起严格的统计学检验)的技术分析,真的可能与应用复杂统计模型与超级计算机的对冲基金相竞争吗?

日内交易,另一个令人不快的事实是日间交易,即业余投资者在交易日内频繁买卖证券的普遍做法,也不起作用。一项又一项的研究表明,绝大多数的即日交易者都在亏钱,其中许多人损失惨重,只有一小部分人有规律地赚取利润。例如,加州大学伯克利分校和北京大学2017年的一项研究发现,即使是最有经验的短线交易员也会亏钱,近75% 的短线交易活动是由有亏损历史的交易员进行的。

市场预测,总之,市场预测者的统计记录令人沮丧。例如,根据 Hickey 对2000年以来市场预测的分析,中值预测与标准普尔500指数实际值之间的平均差距为4.31个百分点,误差为44% 。2008年的预测中值为11.1% 。实际表现如何?市场下降了38.5% ,也就是说,错误高达49.6个百分点。同样,尼尔 · 凯萨尔哀叹说,在预测最重要的时候,它们的用处却最小。《纽约时报》金融专栏作Jeff Sommer最近总结了2020年股市预测者令人沮丧的记录,他说:“就预测未来而言,华尔街的记录因其无能而引人注目。”本文作者及其同事最近对68家市场预测机构进行的一项研究发现,准确性的结果并不比偶然性的结果更好。

科学届的复现危机

如上所述,即使是受过技术培训的人有时也会被基于概率和统计数据的无效论点所愚弄,或者在自己的研究中使用统计学上有问题的方法。其中一个表现就是在科学的各个领域中,可复现的研究结果越来越少。以下是最近引起广泛关注的几个案例:

2012年,安进公司的研究人员报告说,他们只能再现53项癌症研究中的不到10项

2013年,随着最近大肆吹捧的药品在部署时失败或令人失望的事例的发生,该领域的研究人员开始推动全部试验运动,这将要求参与的公司和研究人员公布所有试验的结果,无论成功与否

2014年3月,物理学家大张旗鼓地宣布,他们发现了宇宙大爆炸后不久的“膨胀”时代的原始引力波证据。然而,其他研究人员随后对这一结论提出质疑,认为数据中的扭曲模式可以更容易地用银河系中的尘埃来解释

2015年,可重复性项目的一项研究表明,即使采取了更多的步骤,比如咨询原作者,100项心理学研究中也只有39项能够被复现

同样在2015年,美国联邦储备委员会的一项研究只复现了67项经济学研究中的29项

在2018年再现性项目更新的一项研究中,28项经典和当代心理学实验研究中只有14项被成功复制

2018年,可复现性项目在癌症研究中只复制了10项关键研究中的5项,其中3项是不确定的,2项是否定的; 还有8项研究正在进行中,但尚未完成。

P-hacking

许多复现性方面的困难来自于科学研究人员令人遗憾地广泛实践 p-hacking:

选择实验数据,证实一个假设的理想水平的重要性,并忽略其他数据不。

检验许多假设,直到发现一个符合所需水平的重要性,而忽略其他不。举个例子,上面提到的金融领域的回溯测试过度拟合可以被认为是金融领域的 p-hacking 版本,分析一个模型的许多变体,但是只挑选在历史数据集中得分最高的那个。

P 检验是由英国统计学家罗纳德 · 费舍尔爵士在20世纪20年代提出的,用来评估一个实验的结果是否比给出原假设的结果更极端。然而,费舍尔从来没有打算让 p 测试成为一个单一的数字。事实上,单独使用 p-test 有明显的缺点。首先,通常使用的级别 p = 0.05并不是一个特别令人信服的结果。在任何情况下,如果结果的 p 值为0.051,则拒绝该结果,而如果结果的 p 值为0.049,则接受该结果为重要结果,这是非常值得怀疑的。

阿姆斯特丹大学的 Jelte Wilcherts 的一项研究结果发现那些研究结果接近 p = 0.05显著性水平的研究人员比那些显著性水平更高的研究人员更不愿意分享他们的原始数据。

沿着这条线,很明显,仅仅关注 p 值会扰乱科学思维,混淆影响的大小和重要性。例如,2013年一项针对19000多名已婚人士的研究发现,与通过其他方式认识的人相比,那些在网上认识配偶的人离婚的可能性更小(p < 0.002) ,而且婚姻满意度更高(p < 0.001)。令人印象深刻?是的,但是网络夫妻的离婚率为5.96% ,仅略低于大部分人群的7.67% ,而且这些夫妻的婚姻满意度得分为5.64分,仅略高于大部分人群的5.48分。

从我做起

现代世界统计知识的缺乏程度确实令人沮丧。由于这种普遍的无知,数以百万计的人很容易被宣传误导,从技术角度来看,这种宣传显然是错误的和误导的。

我们能做些什么?在我们这些科学界人士(广义而言)指责公众在概率和统计学方面的无知之前,从上述例子可以清楚地看出,科学家们在这个领域还有许多需要自己清理的地方。幸运的是,许多研究领域正在努力提高标准,例如要求独立专家审查用于数据收集和统计分析的方法。

尽管针对普通读者的概率和统计基础的出版材料很少,最近两本优秀的书包括 Steven Pinker 2021年出版的《What It Is, Why It Seems Scarce, Why It Matters 》(特别是第4章)和Leonard Mlodinow 2009年出版的《The Drunkard’s Walk: How Randomness Rules Our Lives》,及另一本有用的参考书是Stephen Thomas Ziliak 和 Deirdre N. McCloskey的《The Cult of Statistical Significance: How the Standard Error Costs Us Jobs, Justice, and Lives》 ,他们概述了医学和经济学中的许多方法,特别是在统计方法被误用的地方。

在这方面,美国统计协会(ASA)发表了一份关于统计显著性和 p 值的声明。美国标准协会并不建议完全禁止 p 值,但它强烈鼓励将 p 值检验与其他方法结合使用,而不仅仅依赖于作为一种具有统计显著性的衡量标准,当然也不要将其视为一种概率值。美国广告标准局的声明总结道:

良好的统计做法作为良好科学做法的一个重要组成部分,强调良好的研究设计和行为原则、各种数字和图形数据概要、对所研究的现象的理解、在上下文中对结果的解释、完整的报告以及对数据概要意味着什么的适当的逻辑和定量理解。任何单一的指标都不能代替科学推理.

标签:概率,错误,结果,研究,谬误,量化,海市蜃楼,数据,统计
来源: https://blog.csdn.net/wowotuo/article/details/121349423

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有