作者:任昱衡,李倩星,米晓飞
语言:中文
类型:EPUB
出版社:电子工业出版社
出版时间:2015-11-01
ISBN:9787121351129
分类:经济
内容简介
本书是为广大数据分析师量身定制的入门读物,它旨在帮助读者站在大数据时代的制高点。
数据分析处于统计学、计算机信息科学、运筹学、数据库等多个领域的交叉地带,大数据时代的到来大大丰富了数据分析的内涵,数据分析师的职责与以往相比发生了巨大的改变。
本书全面介绍了经典数据分析、模式识别、机器学习、深度学习、数据挖掘、商务智能等多个领域的数据分析算法,将大数据时代的数据分析热点技术一网打尽。
本书为每个数据分析算法都搭配了一个经典案例,并按照由易到难的原则构建知识框架,充分照顾了不同水平读者的阅读习惯。
通过阅读本书,读者将对大数据时代下的数据分析有一个全面的认识。
无论是入门级的数据分析员还是有一定基础的数据分析师,都能通过本书完善、加深对数据分析的认识。
目录
第章经典的探索性数据分析案例
.探索性数据分析综述 2
..什么是探索性数据分析 2
..2如何收集数据 4
..3数据预处理技术 5
.2数据巧收集——红牛的大数据营销案例 8
.2.状况百出的红牛企业 8
.2.2红牛企业巧妙收集消费者数据 9
.2.3数据收集小结 2
.3数据可视化——数据新闻促使英军撤军 3
.3.维基解密带来的海量数据 3
.3.2百花齐放的数据新闻 5
.3.3数据可视化小结 8
.4异常值分析——Facebook消灭钓鱼链接 9
.4.Facebook和广告商之间的拉锯战 20
.4.2异常值分析指导排名算法工作 22
.4.3异常值分析小结 26
.5对比分析——TrueCar指导购物者寻找合算的车价 27
.5.火中取栗的TrueCar网站 28
.5.2数据对比赢得消费者信赖 29
.5.3对比分析小结 32
第2章经典的相关分析与回归分析案例 35
2.相关回归综述 36
2..相关回归简介 36
2..2相关性分析的发展介绍 38
2..3回归分析的发展介绍 39
2.2皮尔逊相关值——纽约市政府利用相关分析监控违法建筑 40
2.2.简约而不简单的消防检测系统 40
2.2.2使用相关分析洞察60个变量的关系 42
2.2.3相关分析小结 45
2.3时间序列分析——人寿保险的可提费用预测 47
2.3.人寿保险公司和可提费用 47
2.3.2使用4种时间序列回归预测模型解决问题 49
2.3.3时间序列分析小结 52
2.4线性回归分析——梅西百货公司的2项大数据策略 54
2.4.从“一亿豪赌”说起的零售商困境 54
2.4.2SAS公司帮助梅西百货构建模型 56
2.4.3线性回归分析小结 59
2.5Logistic回归分析——大面积流感爆发的预测分析 62
2.5.究竟谁才是流感预测算法之王 62
2.5.2向Logistic算法中引入更多变量 64
2.5.3Logistic回归分析小结 67
第3章经典的降维数据分析案例 69
3.降维分析算法综述 70
3..为什么要使用降维算法 70
3..2线性降维算法 72
3..3非线性降维算法 73
3.2粗糙集算法——协助希腊工业发展银行制定信贷政策 74
3.2.银行信贷政策的制定原则 75
3.2.2粗糙集算法的原理和应用 76
3.2.3粗糙集算法小结 80
3.3因子分析——基于李克特量表的应聘评价法 82
3.3.源于智力测试的因子分析 82
3.3.2使用因子分析解构问卷 84
3.3.3因子分析小结 87
3.4尺度分析——直观评估消费者倾向的分析方法 89
3.4.市场调查问题催生的尺度分析 89
3.4.26种经典的尺度分析解读方法 9
3.4.3尺度分析小结 95
3.5PCA降维算法——智能人脸识别的应用与拓展 97
3.5.刷脸的时代来了 97
3.5.2使用PCA算法完成降维工作 99
3.5.3PCA算法小结 02
第4章经典的模式识别案例 05
4.模式识别综述 06
4..模式识别简介 06
4..2模式识别的发展脉络 07
4..3模式识别应用简介 0
4.2图像分析——谷歌的超前自动驾驶技术
4.2.以安全的名义呼吁自动驾驶技术
4.2.2快速成熟的无人驾驶技术 3
4.2.3图像分析小结 6
4.3遗传算法——经典的人力资源优化问题 8
4.3.使用有限资源实现利益化 8
4.3.2遗传算法的计算过程 20
4.3.3遗传算法小结 23
4.4决策树分析——“沸腾时刻”准确判断用户健康水平 24
4.4.打造我国的健身平台 24
4.4.2信息增益和决策树 26
4.4.3决策树小结 29
4.5K均值聚类分析——HSE24通过为客户分类降低退货率 3
4.5.在电子商务市场快速扩张的HSE24 3
4.5.2使用K均值聚类为客户分类 33
4.5.3K均值聚类小结 36
第5章经典的机器学习案例 39
5.机器学习综述 40
5..机器学习简介 40
5..2机器学习的主流发展和应用 42
5.2语义搜索——沃尔玛搜索引擎提升5%销售额 43
5.2.注重用户体验的沃尔玛公司 44
5.2.2语义搜索引擎的底层技术和原理 45
5.2.3语义搜索技术小结 48
5.3顺序分析——搜狗输入法的智能纠错系统 50
5.3.搜狗输入法的王牌词库和智能算法 5
5.3.2频繁树模式和顺序分析算法 53
5.3.3顺序分析小结 56
5.4文本分析——经典的垃圾邮件过滤系统 58
5.4.大数据时代需要文本分析工作 58
5.4.2垃圾邮件过滤中的分词技术和词集模型 60
5.4.3文本分析小结 63
5.5协同过滤——构建个性化推荐系统的经典算法 64
5.5.协同过滤算法为什么这么流行 65
5.5.2基于用户和基于产品的协同过滤 66
5.5.3协同过滤算法小结 69
第6章经典的深度学习案例 7
6.深度学习综述 72
6..深度学习简介 72
6..2深度学习在图像处理方面的应用 74
6..3深度学习在自然语言处理方面的应用 76
6.2支持向量机——乔布斯利用大数据对抗癌症 78
6.2.乔布斯和胰腺癌的抗争 78
6.2.2医学统计学和支持向量机 80
6.2.3支持向量机小结 84
6.3感知器神经网络——的房产价格预测算法 85
6.3.如何预测房价 86
6.3.2多层感知器和误差曲面 88
6.3.3感知器神经网络小结 9
6.4自组织神经网络——如何又快又好地解决旅行商问题 93
6.4.路径问题的典型模式和解决方法 93
6.4.2自组织神经网络的拓扑结构和权值调整 94
6.4.3自组织神经网络小结 98
6.5RBM算法——为新闻报道智能分类 99
6.5.新闻报道智能分类的难与易 99
6.5.2RBM算法的学习目标和学习方法 20
6.5.3RBM算法小结 204
第7章经典的数据挖掘案例 207
7.数据挖掘综述 208
7..什么是数据挖掘 208
7..2数据挖掘的主要应用领域 209
7..3数据挖掘模型的评价指标 2
7.2判别分析——美国运通构建客户流失预测模型 23
7.2.美国运通公司的旧日辉煌 23
7.2.2判别分析的假设条件和判别函数 24
7.2.3判别分析小结 28
7.3购物篮分析——找出零售业的商品组合 220
7.3.名动天下的“啤酒和尿布”案例 220
7.3.2购物篮分析的频繁模式 222
7.3.3购物篮分析小结 225
7.4马尔可夫链——准确预测客运市场占有率 227
7.4.复杂的客运市场系统 227
7.4.2概率转移矩阵的求解方法 229
7.4.3马尔可夫链小结 232
7.5AdaBoost元算法——有效侦测欺诈交易的复合算法 233
7.5.弱分类器和强分类器之争 233
7.5.2AdaBoost元算法的分类器构建方法 235
7.5.3AdaBoost元算法小结 238
第8章经典的商业智能分析案例 24
8.商业智能分析综述 242
8..什么是商业智能 242
8..2商业智能的主流发展与应用 244
8.2KXEN分析软件——构建欧洲博彩业下注预测平台 246
8.2.现代博彩业背后的黑手 247
8.2.2集体智慧和庄家赔率的联系 248
8.2.3KXEN软件小结 252
8.3数据废气再利用——物流公司数据成功用于评估客户信用 253
8.3.数据废气和黑暗数据的异同 254
8.3.2论如何充分利用物流公司数据 255
8.3.3数据废气再利用小结 258
8.4必应预测——使用往期信息预测自然灾害 259
8.4.预测自然灾害的必要性 260
8.4.2微软大数据预测的优与劣 26
8.4.3必应预测小结 263
8.5点球成金——助力NBA大数据分析的多种神秘软件 265
8.5.NBA的有效球员数据 265
8.5.2有关点球成金的靠谱方法 268
8.5.3点球成金小结 270