作者:朱洁
语言:中文
类型:EPUB
出版社:电子工业出版社
出版时间:2019-03-07
ISBN:9787121300004
分类:工业技术
内容简介
《大数据架构详解:从数据获取到深度学习》从架构、业务、技术三个维度深入浅出地介绍了大数据处理领域端到端的知识。
主要内容包括三部分:第一部分从数据的产生、采集、计算、存储、消费端到端的角度介绍大数据技术的起源、发展、关键技术点和未来趋势,结合生动的业界最新产品,以及学术界最新的研究方向和成果,让深奥的技术浅显易懂;第二部分从业务和技术角度介绍实际案例,让读者理解大数据的用途及技术的本质;第三部分介绍大数据技术不是孤立的,讲解如何与前沿的云技术、深度学习、机器学习等相结合。
《大数据架构详解:从数据获取到深度学习》内容深入浅出,技术结合实践,从实践中理解架构和技术的本质,适合大数据技术领域的从业人员如架构师、工程师、产品经理等,以及准备学习相关领域知识的学生和老师阅读。
作者简介
朱洁,2008年加入华为,具有8年大数据研发管理经验,现任华为大数据服务首席规划师。
专注于大数据服务平台建设、规划和实践应用,同时参与多项企业级大数据项目解决方案的规划、设计和实施工作,在深化大数据行业落地方面有诸多实践经验,对解读大数据垂直行业的技术创新与开发有诸多独到的见解和心得。
罗华霖,2002年加入华为,华为大数据首席规划师,主导完成华为大数据平台DataSight和华为电信大数据解决方案SmartCare技术规划和架构设计,支持电信运营商数字化战略转型,完成浙江移动、上海联通、沙特STC等200+电信大数据解决方案项目落地。
曾任华为软交换首席设计师,华为大型电信大数据解决方案SmartCare首席架构师。
目录
第一部分大数据的本质
第章大数据是什么 2
.大数据导论 2
..大数据简史 2
..2大数据现状 3
..3大数据与BI 3
.2企业数据资产 4
.3大数据挑战 5
.3.成本挑战 6
.3.2实时性挑战 6
.3.3安全挑战 6
.4小结 6
第2章运营商大数据架构 7
2.架构驱动的因素 7
2.2大数据平台架构 7
2.3平台发展趋势 8
2.4小结 8
第3章运营商大数据业务 9
3.运营商常见的大数据业务 9
3..SQM(运维质量管理) 9
3..2CSE(客户体验提升) 9
3..3MSS(市场运维支撑) 0
3..4DMP(数据管理平台) 0
3.2小结
第二部分大数据技术
第4章数据获取 4
4.数据分类 4
4.2数据获取组件 4
4.3探针 5
4.3.探针原理 5
4.3.2探针的关键能力 6
4.4网页采集 26
4.4.网络爬虫 26
4.4.2简单爬虫Python代码示例 32
4.5日志收集 33
4.5.Flume 33
4.5.2其他日志收集组件 47
4.6数据分发中间件 47
4.6.数据分发中间件的作用 47
4.6.2Kafka架构和原理 47
4.7小结 82
第5章流处理 83
5.算子 83
5.2流的概念 83
5.3流的应用场景 84
5.3.金融领域 84
5.3.2电信领域 85
5.4业界两种典型的流引擎 85
5.4.Storm 85
5.4.2SparkStreaming 89
5.4.3融合框架 02
5.5CEP 08
5.5.CEP是什么 08
5.5.2CEP的架构 09
5.5.3Esper 0
5.6实时结合机器学习 0
5.6.Eagle的特点
5.6.2Eagle概览
5.7小结 6
第6章交互式分析 7
6.交互式分析的概念 7
6.2MPPDB技术 8
6.2.MPP的概念 8
6.2.2典型的MPP数据库 2
6.2.3MPPDB调优实战 3
6.2.4MPPDB适用场景 62
6.3SQLonHadoop 63
6.3.Hive 63
6.3.2Phoenix 65
6.3.3Impala 66
6.4大数据仓库 67
6.4.数据仓库的概念 67
6.4.2OLTP/OLAP对比 68
6.4.3大数据场景下的同与不同 68
6.4.4查询引擎 69
6.4.5存储引擎 70
6.5小结 7
第7章批处理技术 72
7.批处理技术的概念 72
7.2MPPDB技术 72
7.3MapReduce编程框架 73
7.3.MapReduce起源 73
7.3.2MapReduce原理 73
7.3.3Shuffle 74
7.3.4性能差的主要原因 77
7.4Spark架构和原理 77
7.4.Spark的起源和特点 77
7.4.2Spark的核心概念 78
7.5BSP框架 27
7.5.什么是BSP模型 27
7.5.2并行模型介绍 28
7.5.3BSP模型基本原理 220
7.5.4BSP模型的特点 222
7.5.5BSP模型的评价 222
7.5.6BSP与MapReduce对比 222
7.5.7BSP模型的实现 223
7.5.8ApacheHama简介 223
7.6批处理关键技术 227
7.6.CodeGen 227
7.6.2CPU亲和技术 228
7.7小结 229
第8章机器学习和数据挖掘 230
8.机器学习和数据挖掘的联系与区别 230
8.2典型的数据挖掘和机器学习过程 23
8.3机器学习概览 232
8.3.学习方式 232
8.3.2算法类似性 233
8.4机器学习&数据挖掘应用案例 235
8.4.尿布和啤酒的故事 235
8.4.2决策树用于电信领域故障快速定位 236
8.4.3图像识别领域 236
8.4.4自然语言识别 238
8.5交互式分析 239
8.6深度学习 240
8.6.深度学习概述 240
8.6.2机器学习的背景 24
8.6.3人脑视觉机理 242
8.6.4关于特征 244
8.6.5需要有多少个特征 245
8.6.6深度学习的基本思想 246
8.6.7浅层学习和深度学习 246
8.6.8深度学习与神经网络 247
8.6.9深度学习的训练过程 248
8.6.0深度学习的框架 248
8.6.深度学习与GPU 255
8.6.2深度学习小结与展望 256
8.7小结 257
第9章资源管理 258
9.资源管理的基本概念 258
9..资源调度的目标和价值 258
9..2资源调度的使用限制及难点 258
9.2Hadoop领域的资源调度框架 259
9.2.YARN 259
9.2.2Borg 260
9.2.3Omega 262
9.2.4本节小结 263
9.3资源分配算法 263
9.3.算法的作用 263
9.3.2几种调度算法分析 263
9.4数据中心统一资源调度 27
9.4.Mesos+Marathon架构和原理 27
9.4.2Mesos+Marathon小结 283
9.5多租户技术 284
9.5.多租户概念 284
9.5.2多租户方案 284
9.6基于应用描述的智能调度 287
9.7ApacheMesos架构和原理 288
9.7.ApacheMesos背景 288
9.7.2ApacheMesos总体架构 288
9.7.3ApacheMesos工作原理 290
9.7.4ApacheMesos关键技术 295
9.7.5Mesos与YARN比较 304
9.8小结 305
第0章存储是基础 306
0.分久必合,合久必分 306
0.2存储硬件的发展 306
0.2.机械硬盘的工作原理 306
0.2.2SSD的原理 307
0.2.33DXPoint 309
0.2.4硬件发展小结 309
0.3存储关键指标 309
0.4RAID技术 309
0.5存储接口 30
0.5.文件接口 3
0.5.2裸设备 3
0.5.3对象接口 32
0.5.4块接口 36
0.5.5融合是趋势 328
0.6存储加速技术 328
0.6.数据组织技术 328
0.6.2缓存技术 335
0.7小结 336
第章大数据云化 337
.云计算定义 337
.2应用上云 337
.2.CloudNative概念 338
.2.2微服务架构 338
.2.3Docker配合微服务架构 342
.2.4应用上云小结 348
.3大数据上云 348
.3.大数据云服务的两种模式 348
.3.2集群模式AWSEMR 349
.3.3服务模式AzureDataLakeAnalytics 352
.4小结 354
第三部分大数据文化
第2章大数据技术开发文化 356
2.开源文化 356
2.2DevOps理念 356
2.2.Development和Operations的组合 357
2.2.2对应用程序发布的影响 357
2.2.3遇到的问题 358
2.2.4协调人 358
2.2.5成功的关键 359
2.3速度远比你想的重要 359
2.4小结 36