《Python数据分析与挖掘实战(第3版)》张春福;白婧;张良均;范林元;吴建平【文字版_PDF电子书_下载】

《Python数据分析与挖掘实战(第3版)》封面图片

内容简介:

本书是Python数据分析与挖掘领域的公认的事实标准,前两版销售超过15万册,被国内100余所院校采用为教材,同时也被广大数据科学工作者奉为经典。

本书以真实项目案例为驱动,以真实的行业应用为依托,帮助读者快速掌握数据分析与挖掘的相关技术、流程与方法。本书精选了7个经典实战案例,涵盖了房地产、零售、互联网等多个领域,将Python编程知识、数据分析与挖掘知识和行业知识融合,让读者在实践中快速地掌握针对不同行业的数据挖掘方法。

本书不仅适合零基础的读者自学,还适合作为相关专业的教材。为了帮助读者更加高效地掌握本书的内容,本书提供了以下附加价值:

(1)上机环境:提供相关工具的环境配置文件,省去配置环境的烦琐操作,方便省心。

(2)数据文件:提供各个案例配套的数据文件,开箱即用,增强实操性。

(3)程序代码:提供书中代码的电子文件,代码导入环境即可运行,学习效果立竿见影。

(4)教学课件:提供配套的PPT课件,使用本书作为教材的老师可以申请,节省备课时间。

通过学习本书,读者可以理解数据分析与挖掘的原理,迅速掌握大数据技术的相关操作,为后续数据分析、数据挖掘、深度学习的实践打下良好的技术基础。

作者简介:

张良均,资深大数据专家,广东泰迪智能科技股份有限公司董事长,国家科技部入库技术专家、教育部全国专业学位水平评估专家,工业和信息化部教育与考试中心入库专家,高级信息系统项目管理师,中国工业与应用数学学会理事,广东省高等职业教育教学指导委员会委员,广东产教评技能生态链建设指导专家,“泰迪杯”数据挖掘挑战赛发起人;华南师范大学、中南财经政法大学、广东工业大学、湘潭大学等30余所高校兼职教授或硕导。

近5年,主持及参与5项行业标准制定;主导编写图书专著90余本,其中6本入选“十四五”教育部国家规划教材;承担国家级项目1项,省部级项目4项。具有电力、电信、银行、生产制造、电子商务和电子政务的项目经验和行业背景。荣获了中国产学研合作促进奖、数字信访重大突破奖、南方电网发明专利奖、省科技进步奖、省教学成果奖等10余项省部级奖项。

目  录:

前言

基础篇

第1章 数据挖掘基础2

1.1 某知名连锁餐饮企业的困惑2

1.2 从餐饮服务到数据挖掘4

1.3 数据挖掘的基本任务4

1.4 数据挖掘的建模过程5

1.4.1 目标定义5

1.4.2 数据采集6

1.4.3 数据探索7

1.4.4 数据预处理8

1.4.5 挖掘建模8

1.4.6 模型评价8

1.5 常用的数据挖掘建模工具8

1.6 小结10

第2章 Python数据分析简介11

2.1 搭建Python开发平台12

2.1.1 需要考虑的问题12

2.1.2 基础平台的搭建13

2.2 Python使用入门14

2.2.1 运行方式14

2.2.2 基本命令15

2.2.3 数据结构18

2.2.4 库的导入与添加23

2.3 Python数据分析工具25

2.3.1 NumPy26

2.3.2 SciPy27

2.3.3 Matplotlib28

2.3.4 pandas29

2.3.5 StatsModels31

2.3.6 scikit-learn31

2.3.7 Keras33

2.3.8 Gensim35

2.3.9 TensorFlow35

2.3.10 PyTorch39

2.3.11 PaddlePaddle42

2.3.12 XGBoost45

2.4 配套附件使用设置47

2.5 小结47

第3章 数据探索48

3.1 数据质量分析48

3.1.1 缺失值分析49

3.1.2 异常值分析49

3.1.3 一致性分析53

3.2 数据特征分析53

3.2.1 分布分析53

3.2.2 对比分析58

3.2.3 统计量分析60

3.2.4 周期性分析63

3.2.5 贡献度分析65

3.2.6 相关性分析67

3.3 Python的主要数据探索函数71

3.3.1 基本统计特征函数71

3.3.2 拓展统计特征函数75

3.3.3 统计绘图函数76

3.4 小结83

第4章 数据预处理84

4.1 数据清洗84

4.1.1 缺失值处理84

4.1.2 异常值处理89

4.1.3 重复值处理89

4.2 数据集成91

4.2.1 实体识别91

4.2.2 冗余属性识别91

4.3 数据变换92

4.3.1 简单函数变换92

4.3.2 数据规范化92

4.3.3 连续属性离散化95

4.3.4 属性构造97

4.3.5 小波变换98

4.4 数据归约101

4.4.1 属性归约101

4.4.2 数值归约106

4.5 Python的主要数据预处理函数109

4.6 小结111

第5章 挖掘建模113

5.1 分类与预测113

5.1.1 实现过程114

5.1.2 常用的分类与预测算法114

5.1.3 回归分析115

5.1.4 决策树119

5.1.5 人工神经网络126

5.1.6 分类与预测算法评价131

5.1.7 Python的分类预测模型136

5.2 聚类分析136

5.2.1 常用的聚类分析算法137

5.2.2 k均值聚类算法138

5.2.3 聚类分析算法评价143

5.2.4 Python的主要聚类分析算法144

5.3 关联规则146

5.3.1 常用的关联规则算法147

5.3.2 Apriori算法147

5.4 时序模式153

5.4.1 时间序列算法153

5.4.2 时间序列的预处理154

5.4.3 平稳时间序列分析156

5.4.4 非平稳时间序列分析159

5.4.5 Python的主要时序模式算法167

5.5 离群点检测170

5.5.1 离群点的成因及类型170

5.5.2 离群点检测方法171

5.5.3 基于统计模型的离群点

检测方法172

5.5.4 基于聚类的离群点检测方法174

5.6 小结177

实战篇

第6章 房屋租金影响因素分析

与预测180

6.1 背景与挖掘目标180

6.2 分析方法与过程181

6.2.1 数据预处理181

6.2.2 数据探索190

6.2.3 模型构建201

6.3 上机实验207

6.4 拓展思考208

6.5 小结209

第7章 商超客户价值分析210

7.1 背景与挖掘目标210

7.2 分析方法与过程211

7.2.1 数据探索与预处理212

7.2.2 模型构建及结果分析228

7.3 上机实验238

7.4 拓展思考239

7.5 小结240

第8章 商品零售购物篮分析241

8.1 背景与挖掘目标241

8.2 分析方法与过程242

8.2.1 数据探索分析243

8.2.2 数据预处理249

8.2.3 模型构建249

8.3 上机实验255

8.4 拓展思考256

8.5 小结256

第9章 基于水色图像的水质评价257

9.1 背景与挖掘目标257

9.2 分析方法与过程258

9.2.1 分析流程259

9.2.2 数据预处理259

9.2.3 模型构建263

9.2.4 水质评价264

9.3 上机实验265

9.4 拓展思考265

9.5 小结266

第10章 家用热水器用户行为

分析与事件识别267

10.1 背景与挖掘目标267

10.2 分析方法与过程268

10.2.1 数据探索分析269

10.2.2 数据预处理272

10.2.3 模型构建283

10.2.4 模型检验284

10.3 上机实验285

10.4 拓展思考287

10.5 小结288

第11章 电视产品个性化推荐289

11.1 背景与挖掘目标289

11.2 分析方法与过程290

11.2.1 分析流程291

11.2.2 数据预处理291

11.2.3 分析与建模306

11.2.4 模型评价310

11.3 上机实验313

11.4 拓展思考314

11.5 小结314

第12章 天问一号事件中的网民

评论情感分析315

12.1 背景与挖掘目标315

12.2 分析方法与过程316

12.2.1 分析流程316

12.2.2 数据说明317

12.2.3 数据探索318

12.2.4 文本预处理323

12.2.5 绘制词云图327

12.2.6 使用朴素贝叶斯构建

情感分析模型331

12.2.7 模型评价338

12.2.8 模型优化340

12.3 上机实验344

12.4 拓展思考345

12.5 小结345

提高篇

第13章 基于TipDM大数据挖掘

建模平台实现商超客户

价值分析348

13.1 平台简介348

13.1.1 “共享库”模块350

13.1.2 “数据连接”模块350

13.1.3 “数据集”模块350

13.1.4 “我的工程”模块351

13.1.5 “个人组件”模块354

13.2 快速构建数据挖掘工程355

13.2.1 数据源配置355

13.2.2 数据探索与处理360

13.2.3 模型构建与结果分析379

13.3 小结393