《数据决策》(数字时代如何利用数据分析隐藏趋势)【美】艾伦·唐尼【文字版_PDF电子书_下载】
内容简介:
《数据决策》是为普通人打造的一本“数据思维急救手册”。作者艾伦・唐尼现任奥林学院荣誉教授、PyMC实验室首席数据科学家,他非常擅长用通俗的语言解析深奥的统计学原理。
本书以“反直觉的数据”为切入点,通过数十个真实有趣的案例,带领读者逐步认清统计悖论。比如:“吸烟孕妇生出的低体重儿更健康”,这其实是混淆了“相关性”与“因果性”的典型谬误;“疫苗接种者死亡率更高”也只是统计假象,实则是统计者的年龄结构差异导致的。这些案例将颠覆我们的认知,从而引发读者对数据解读的深入思考。
更重要的是,作者没有在书中空谈理论,而是将统计学方法转化为可复用的决策工具。例如:基本比率法则能帮我们避免医学检测导致的过度恐慌或轻视;因果图模型可区分直接影响与间接干扰,避开“相关性等于因果性”的陷阱;长尾分布思维则提醒决策者需要为极端事件预留出容错空间;等等。这些工具能渗透到生活中的各种日常场景,使抽象的方法具有可实践性。此外,书中对数据伦理的探讨也提醒我们,数据不是冰冷数字,数据记录着社会进步的轨迹,并承载着重要的社会价值。
这本书像一把解码数据的“钥匙”,能重塑我们看待世界的方式,让我们在数据泛滥的时代,避开统计陷阱,保持清醒思考,做出理性决策。
作者简介:
[美]艾伦·唐尼(Allen Downey)
拥有加州大学伯克利分校(U.C. Berkeley)的博士学位,以及麻省理工学院(MIT)的硕士和学士学位。他曾在奥林学院(Olin College)、科尔比学院(Colby College)和韦尔斯利学院(Wellesley College)任教,目前担任奥林学院的荣誉教授,也是PyMC实验室的首席数据科学家。
他已出版多本与编程和数据科学相关的书,包括《思考Python》(Think Python)、《思考统计》(Think Stats)和《思考贝叶斯》(Think Bayes)等系列作品。这些书背后的核心理念是:你如果懂得如何编程,就可以利用这一技能去学习其他领域的知识。
精彩书评:
这本书中的每个统计悖论都使用了有趣而具体的案例来阐述,从而能够让读者轻松掌握有关统计的抽象概念。正如作者唐尼在书中多次声称的:“一旦你理解了一个统计悖论,你就会发现它无处不在。”
——《元科学》(Metascience)杂志
这本书避开了教科书厚重的技术密度,而且它比普通的科普书更加烧脑,书中广泛的主题和丰富的案例肯定会吸引每一位读者。
——《隐性假设》(Implicit Assumptions)杂志
唐尼教授展示了大量从合法数据库中提取的图表和数值结果,并辅以清晰的案例来阐释数据缺陷是如何产生的。他的写作风格生动活泼,以清晰的、富有逻辑性的方式充分解答了诸多具有挑战性的问题。
——《选择》(Choice)杂志
唐尼对这门学科充满纯粹的热爱,他心怀社会责任感,并坚信统计方法能阐明当今时代最重大、最棘手的议题。
——奥布里·克莱顿(Aubrey Clayton)
著有《伯努利谬误:不合逻辑的统计学与现代科学的危机》
马克·吐温曾经说过:“事实是顽固的东西,但统计数据更容易改变。”唐尼教授非常理解这句话。1971年,一位诚实的研究人员发现了一些表明孕妇吸烟有可能对胎儿有益的数据——这一误解使反吸烟政策的实施推迟了10年。在这个清晰而有说服力的分析中,唐尼解
释了为什么数据被误解,以及其他很多问题。这是一本有价值的书。
——弗洛伊德·诺里斯(Floyd Norris)
《纽约时报》前首席财经记者
这本书阐述了常见的统计谬误和悖论,以及它们的重要性。这本书向读者展示了统计数据是多么迷人和有趣。你不需要是专业的数学家和统计学家,只要有一颗好奇心,就能从中获益。
——拉万·库玛(Ravin Kumar)
谷歌公司数据科学家
目 录:
中文版序 VII
引言 用证据和理性指引我们的决策 IX
第 1 章 人人都不正常吗?
—高斯曲线与中心极限定理 001
高斯曲线与高斯分布 004
中心权限定理 007
各种分布与偏差 010
偏差到底有多大? 013
“平均人”神话 014
大五人格测试 017
我们都是怪异的! 022
但有些人更正常 024
第 2 章 犯过罪的人一定会再犯?
—检验悖论与友谊悖论 027
检验悖论与过度抽样 030
无偏数据与有偏数据 032
尖锋厚尾 034
友谊悖论 037
寻找超级传播者 039
比我快的和比我慢的 041
被高估的刑期 043
重复犯罪率到底有多高? 045
无处不在且隐蔽的检验悖论 047
第 3 章 如果每位女性都少生一个孩子?
—普雷斯顿悖论 049
原生家庭规模 053
大萧条和婴儿潮 055
不断下降的生育率 056
普雷斯顿悖论 059
如果每位女性比其母亲少生一个孩子 061
新的生育模式 062
第 4 章 顶级牛人有什么特别之处?
—对数正态分布与 SPC 框架 065
成年人的体重不符合高斯分布 068
新生儿出生体重符合高斯分布 072
模拟增加体重后 073
速度的对数正态分布 076
国际象棋的积分分布 080
顶尖人物的异常值 084
用 SPC 框架找工作 086
第 5 章 如何活到 300 岁?
—预期新比旧优与预期旧比新优 089
新灯泡还是旧灯泡的寿命长? 093
第 39、40、41 周的孕妇的分娩时间 095
肿瘤病人的存活时间 097
出生时的预期寿命 102
不同区域的儿童死亡率 104
让死亡率骤降且长寿的秘密 106
第 6 章 你应该点菜单上那道最让人没食欲的菜?
—伯克森悖论与伯克森偏倚 113
数学能力和语言能力 116
精英大学与二流大学里的相关性 118
胆囊炎和糖尿病之间的相关性 121
新冠病毒感染和伯克森悖论 124
抑郁症和伯克森悖论 126
位置不好的餐馆更值得去! 127
第 7 章 吸烟对胎儿更有利?
—出生体重悖论,多胞胎悖论与肥胖悖论 129
母亲吸烟与婴儿死亡率之间的关系 134
高海拔地区的母亲与矮个子母亲 136
低出生体重悖论的终结 138
多胞胎悖论与早产 139
肥胖悖论也是不存在的 140
伯克森烤面包机与因果图 142
第 8 章 黑天鹅事件的发生有规律性吗?
—尾端分布与对数 -T 模型 147
灾害损失的尾端分布 150
地震震级的尾端分布 156
太阳耀斑通量的尾端分布 160
月球上的陨石坑 164
小行星直径的尾端分布 166
股市崩盘的规模分布 169
黑天鹅与灰天鹅 171
在长尾的世界里醒来 173
第 9 章 到底要不要接种疫苗?
— 基率谬误与假阴性率 177
医学检测的准确性 181
如果提高灵敏度与特异度 183
患病率和假阳性率 186
酒驾和毒驾的筛查 188
别怀疑疫苗的有效性 191
预测犯罪风险 197
比较组 200
算法比人类更容易纠错 203
公平很难实现 206
第 10 章 不敢独自走夜路的人,更害怕离婚?
—辛普森悖论与数据开放 211
乐观的老年人和悲观的年轻人 214
实际收入下降,总体收入却上升? 218
企鹅 221
要不要开刀取肾结石 223
接种疫苗和老年人的死亡率 228
是的,疫苗挽救了很多人的生命 233
开放数据,公开讨论 235
第 11 章 你相信世界上存在蜥蜴人吗?
—“年龄 - 时代 - 世代”分析及奥弗顿之窗 237
种族歧视和蜥蜴人 240
年龄效应、时代效应和世代效应 244
我们越来越不“恐同” 248
变化源于思想的改变 251
世代效应还是时代效应? 252
固执己见的群体和奥弗顿之窗 253
第 12 章 老年人的观念更保守?
—奥弗顿之窗转移和追逐奥弗顿之窗 257
年老的保守派,年轻的自由派? 260
“保守派”是什么意思? 262
奥弗顿之窗移向自由主义 265
“中间”并非一成不变 266
我们是否变得更加两极分化? 269
追逐奥弗顿之窗 270
附录 区分自由派和保守派的问题 273
结语 问题,数据和方法 275
致谢 279
译后记 281
资料来源和相关读物 285
参考文献 297
