reading-notes

张俊的读书笔记

View project on GitHub

简单统计学

cover

作者: [美] 加里·史密斯 
出版社: 后浪丨江西人民出版社
出品方: 后浪
副标题: 如何轻松识破一本正经的胡说八道
原作名: Standard Deviations:Flawed Assumptions,Tortured Data,and Other Ways to Lie with Statistics
译者: 刘清山 
出版年: 2018-1
页数: 376
定价: 58.00元
装帧: 平装
ISBN: 9787210098416

豆瓣链接

  1. 自选择偏差:如果有人告诉我们,参与竞争性体育运动的孩子非常自信,我们不应该认为竞争性体育运动可以增强自信。也许,自信的孩子喜欢参与竞争性体育。如果有人告诉我们,华尔街的工作人员很有进取心,我们不应该认为华尔街可以培养进取心。也许,华尔街容易吸引具有进取心的人。
  2. 幸存者偏差:我们会自然而然地根据我们看到的现象得出结论——工人的工资、受损的飞机、成功的公司。我们还应当考虑到我们没有看到的事情——离职的员工、没有返航的飞机、失败的公司。
  3. 研究的结论是,同接受假手术的对照组相比,真正接受关节镜手术的患者在任何时刻都没有感到更少的疼痛,或者表现出更好的功能。显然,病人声称的疼痛缓解完全来自安慰剂效应(人们相信医学的力量,希望看到治疗方法带来积极的效果,即使这种治疗方法没有任何医学价值)。
  4. 谋杀之谜显示了当基数很小时一个统计意外所产生的巨大影响。
  5. 证实性偏差:矿山生产和房产价值也是同样的道理。二者都在随时间增长,它们之间不一定存在因果关系。公司出钱要求咨询师证明一些事情。当咨询师发现某种表面上的证据时,他们就会死死抓住这种证据不放。一些人愿意寻找能够证明荒谬观点的证据,然后装模作样地向人们证明这种观点。在寻找令人信服的证据时,他们常常会找到巧合的相关性,而那些随着时间和人口的增长而增长的数据往往具有巧合的相关性。
  6. 具有争议性的论断之所以具有争议性,是因为它们违反直觉-这是一个很好的怀疑理由。具有争议性的论断很可能应当被丢弃。考虑数据是否存在问题,比如自选择偏差。考虑因果关系是否应该颠倒过来,还要考虑计算出现错误的可能性。
  7. 图像会扭曲数据,误导读者。
    • 当心将数轴上的零点忽略掉的图像。这种忽略可以将图像放大,显示出之前由于分辨率问题而无法发觉的模式。不过,这种做法也会放大数据的波动性,可能产生误导效果。
    • 当心没有调整人口和物价增长因素的数据。不要被那些将时间放在纵轴上的图像欺骗。
    • 也不要被间隔不一致的图像欺骗——比如同样的1厘米时而表示五年间隔,时而表示十年间隔。
  8. 辛普森悖论指的是当聚合数据被分解时,其中的模式发生逆转的现象。
  9. 小数定律指的是这样一种错误观念:如果容器中50%的球是红球,那么我们取出的10个球中只有5个红球。事实并非如此。我们取出5个红球和5个篮球的概率大约只有25%。大多数时候,红球和篮球的数量是不等的。错误的小数定律将导致两个相互关联的错误。
    • 赌徒谬误:如果我们取出的前3个球是红球,那么我们倾向于(错误地)认为下一个球很可能是篮球,因为我们最终一定会得到5个红球和5个篮球。
    • 在我们不知道容器中有多少红球和篮球的情况下,如果我们取出5个球,其中4个球是红球,我们就会(错误地)认为容器中一定有80%的球是红球。因此,下一个球有80%的可能性是红球。
  10. 当学术能力或运动能力等特点得到不完美测量时,观测到的表现差异会夸大实际能力的差异。表现优秀的人与平均水平的距离很可能不像看上去那样遥远,表现最为糟糕的人也是如此。因此,他们随后的表现将会朝着均值回归
  11. 有一种常见的推理过程基于错误的平均定律。一些人认为,如果抛1000次硬币,一定会有500个正面和500个背面;因此,如果前十次、前五十次或者前一百次出现的正面多于背面,那么为了使结果得到平衡,接下来出现的背面一定多于正面。这是一种普遍存在的观点,但它是错误的。硬币无法控制自己的落地方式。如果硬币是完好额,并且得到公平抛掷,那么不管上一次或者之前999次抛掷的结果如何,正面和背面接下来出现的可能性都是相等的。
  12. 神枪手谬误形式也叫费曼陷进。费曼(诺贝尔奖获得者)请加州理工学院的学生计算他走出教室时在停车场里看到的第一辆车拥有某个特定拍照(比如8NSDR331)的概率。加州理工学院的学生算出答案时1.76亿分之一。当他们得到答案时,费曼说,正确的概率是1,因为他刚才在路上看到了这个拍照。如果某件可能性极低的事情已经发生,那么它就不再是小概率事件了。
    • 不过,研究人员一直在做同样的事情。在考察数据之后预测数据的形式是很容易的,也是没有意义的。
    • 当人们根据数据发明某种理论时,如果这种理论没有合理的基础,没有得到新数据的检验,那么这种证据时无法令人信服的。神枪手应当仅仅画出一个目标,而且应当在开枪之前而不是之后画出这个目标。
  13. 对于看上去天马行空的理论,应当抱有极为谨慎的怀疑态度。留意不自然的数据分组。留意研究人员似乎仅仅提到经过仔细选择的一部分统计检验的研究。
  14. 异常值有时是笔策略误差或意外,如果无法得到校正或忽略,它们会扭曲数据。在其他时候,异常值是最重要的观测值,比如臭氧读数。
    • 排除异常值有时会产生误导作用,不排除异常数据则几乎一定会产生误导作用。
    • 在“挑战者”号例子中,对于重要数据的忽略是一个无心而致命的错误。在其他情形中,人们故意忽略一些数据,因为这些数据不支持他们事先形成的观念。为了相信某件事情是正确的,他们丢弃了与这种信念相冲突的数据。
    • 和巴斯克维尔研究一样,出生年份噩运研究真正能够证明的结论是,对于任何理论,只要考察大量数据,并且丢弃不支持这种理论的数据,那么你一定能够收集到支持这种理论的证据。
  15. “出版效应”:具有统计显著性的结果会被写进期刊和图书,而不显著的结果不会得到报告。
    • 对抗数据挖掘和选择性报告的第一种良方是常识。
    • 第二种良方是新数据。
  16. “博傻理论”:以虚高的价格购买某样东西,希望能够以更高的价格将其卖给更大的傻瓜。
    • 在投机泡沫中,赚钱机器的价格远远超出了其经济价值,因为人们购买这台机器不是为了每年的2美元,而是为了以更高的价格将机器卖给其他人。他们之所以认为未来的价格会上升,仅仅是因为过去的价格出现了上升。(这仍然是缺乏理论的数据。)当投机者不再认为这台机器的价格会不断上升时,泡沫就会破裂。他们开始销售机器,价格开始不断下跌,因为如果投机者认为他们无法以更高的价格将机器卖出去,他们就不会支付虚高的价格。当他们失去信心时,这场盛宴也就结束了。
  17. 计量经济师(“宽客”)用数学和数据分析股票和其他投资品。他们不关心对总裁人格或产品潜力的主观评价。不要试图和他们谈论史蒂夫·乔布斯、沃伦·巴菲特、智能手机或可口可乐。他们的口号是:“我只看数字!”
    • 20世纪50年代,马科维茨提出了量化风险的均值方差分析。均值方差分析的一个主要弱点是对历史数据的依赖。投资者很容易假定过去相对安全的股票未来也是相对安全的。这是一个危险的假设!
    • 20世纪70年代,默顿、布莱克和斯科尔斯确定了看涨期权的理论“正确”价值(看涨期权的所有者有权在指定日期制定价格购买股票)。这个模型目前被称为“布莱克——斯科尔斯”模型。它的一个主要弱点是。模型中的许多基本假设是错误的,比如股票价格的变化类似于抛硬币,投资者对股票和期权的交易没有成本,不会造成巨大而突然的价格变动。
    • 这些人的开创性工作很好地说明了计量金融分析的两个主要缺陷:天真地相信历史模式是对未来的可靠指引,并且依赖于在数学上很方便却不切实际而且非常危险的理论假设。
    • 早期的收敛交易基于简单的模式,比如金价与银价的比率。现代计算机可以对巨大的数据库进行搜索,寻找更加细微、更加复杂的模式。不过,根本的问题并没有改变。缺乏理论的数据是靠不住的。如果人们发现的模式没有深层次原因,那么我们没有理由认为这种模式的偏离能够得到自我校正。