《Hadoop大数据分析实战》PDF电子书免费下载

作者:  [美] 斯里达尔?奥拉 著

出版年: 2019年5月1日

ISBN: 9787302527893

~~滚到底部有网盘下载链接~~

内容简介

目录

第1章 Hadoop简介 1
1.1 Hadoop分布式文件系统 1
1.1.1 高可用性 2
1.1.2 内部DataNode均衡器 4
1.1.3 纠删码 4
1.1.4 端口号 4
1.2 MapReduce框架 5
1.3 YARN 6
1.3.1 机会型容器 7
1.3.2 YARN时间轴服务v.2 7
1.4 其他变化内容 9
1.4.1 最低Java版本 9
1.4.2 Shell脚本重写 9
1.4.3 覆盖客户端的JAR 10
1.5 安装Hadoop 3 10
1.5.1 准备条件 10
1.5.2 下载 10
1.5.3 安装 12
1.5.4 设置无密码ssh 12
1.5.5 设置NameNode 13
1.5.6 启动HDFS 13
1.5.7 设置YARN服务 17
1.5.8 纠删码 18
1.5.9 内部DataNode平衡器 21
1.5.10 安装时间轴服务v.2 21
1.6 本章小结 27
第2章 大数据分析概述 29
2.1 数据分析简介 29
2.2 大数据简介 30
2.2.1 数据的多样性 31
2.2.2 数据的速度 32
2.2.3 数据的容量 32
2.2.4 数据的准确性 32
2.2.5 数据的可变性 33
2.2.6 可视化 33
2.2.7 数值 33
2.2 使用Apache Hadoop的分布式计算 33
2.4 MapReduce框架 34
2.5Hive35
2.5.1下载并解压Hive二进制文件37
2.5.2安装Derby37
2.5.3使用Hive39
2.5.4SELECT语句的语法41
2.5.5INSET语句的语法44
2.4.6原始类型44
2.5.7复杂类型45
2.5.8内建运算符和函数45
2.5.9语言的功能50
2.6ApacheSpark51
2.7基于Tableau的可视化操作52
2.8本章小结54
第3章基于MapReduce的大数据处理55
3.1MapReduce框架55
3.1.1数据集57
3.1.2记录读取器58
3.1.3映射59
3.1.4组合器59
3.1.5分区器60
3.1.6混洗和排序60
3.1.7reducer任务60
3.1.8输出格式61
3.2MapReduce作业类型61
3.2.1SingleMapper作业63
3.2.2SingleMapperReducer作业72
3.2.3MultipleMappersReducer作业77
3.2.4SingleMapperReducer作业83
3.2.5应用场景84
3.3MapReduce模式88
3.3.1聚合模式88
3.3.2过滤模式90
3.3.3连接模式91
3.4本章小结100
第4章Python-Hadoop科学计算和大数据分析101
4.1安装操作101
4.1.1安装Python101
4.1.2安装Anaconda103
4.2数据分析110
4.3本章小结134
第5章R-Hadoop统计数据计算135
5.1概述135
5.1.1在工作站上安装R并连接Hadoop中的数据135
5.1.2在共享服务器上安装R并连接至Hadoop136
5.1.3利用RevolutionROpen136
5.1.4利用RMR2在MapReduce内执行R137
5.2R语言和Hadoop间的集成方法138
5.2.1RHadoop—在工作站上安装R并将数据连接至Hadoop中139
5.2.2RHIPE—在HadoopMapReduce中执行R语言139
5.2.3R和Hadoop流139
5.2.4RHIVE—在工作站上安装R并连接至Hadoop数据140
5.2.5ORCH—基于Hadoop的Oracle连接器140
5.3数据分析140
5.4本章小结165
第6章ApacheSpark批处理分析167
6.1SparkSQL和DataFrame167
6.2DataFrameAPI和SQLAPI171
6.2.1旋转176
6.2.2过滤器177
6.2.3用户定义的函数178
6.3模式—数据的结构178
6.3.1隐式模式179
6.3.2显式模式179
6.3.3编码器181
6.4加载数据集182
6.5保存数据集183
6.6聚合183
6.6.1聚合函数184
6.6.2窗口函数194
6.6.3ntiles195
6.7连接197
6.7.1连接的内部工作机制199
6.7.2混洗连接199
6.7.3广播连接199
6.7.4连接类型200
6.7.5内部连接201
6.7.6左外连接202
6.7.7右外连接203
6.7.8全外连接204
6.7.9左反连接205
6.7.10左半连接206
6.7.11交叉连接206
6.7.12连接的操作性能207
6.8本章小结208
第7章ApacheSpark实时数据分析209
7.1数据流209
7.1.1“至少一次”处理211
7.1.2“最多一次”处理211
7.1.3“仅一次”处理212
7.2SparkStreaming214
7.2.1StreamingContext215
7.2.2创建StreamingContext215
7.2.3启用StreamingContext216
7.2.4终止StreamingContext216
7.3fileStream217
7.3.1textFileStream217
7.3.2binaryRecordsStream217
7.3.3queueStream218
7.3.4离散流219
7.4转换222
7.4.1窗口操作223
7.4.2有状态/无状态转换226
7.5检查点227
7.5.1元数据检查点228
7.5.2数据检查点228
7.6驱动程序故障恢复229
7.7与流平台的互操作性(ApacheKafka)230
7.7.1基于接收器的方案230
7.7.2DirectStream232
7.7.3StructuredStreaming233
7.8处理事件时间和延迟日期236
7.9容错示意图237
7.10本章小结237
第8章ApacheFlink批处理分析239
8.1ApacheFlink简介239
8.1.1无界数据集的连续处理240
8.1.2Flink、数据流模型和有界数据集241
8.2安装Flink241
8.3使用Flink集群UI248
8.4批处理分析251
8.4.1读取文件251
8.4.2转换254
8.4.3groupBy258
8.4.4聚合260
8.4.5连接261
8.4.6写入文件272
8.5本章小结274
第9章ApacheFlink流式处理275
9.1流式执行模型简介275
9.2利用DataStreamAPI进行数据处理277
9.2.1执行环境278
9.2.2数据源278
9.2.3转换282
9.3本章小结300
第10章大数据可视化技术301
10.1数据可视化简介301
10.2Tableau302
10.3图表类型313
10.3.1线状图314
10.3.2饼图314
10.3.3柱状图315
10.3.4热图316
10.4基于Python的数据可视化317
10.5基于R的数据可视化319
10.6大数据可视化工具320
10.7本章小结321
第11章云计算简介323
11.1概念和术语323
11.1.1云323
11.1.2IT资源324
11.1.3本地环境324
11.1.4云使用者和云供应商324
11.1.5扩展324
11.2目标和收益325
11.2.1可扩展性的提升326
11.2.2可用性和可靠性的提升326
11.3风险和挑战327
11.3.1安全漏洞327
11.3.2减少运营治理控制328
11.3.3云提供商之间有限的可移植性328
11.4角色和边界328
11.4.1云供应商328
11.4.2云使用者328
11.4.3云服务持有者328
11.4.4云资源管理员329
11.5云特征329
11.5.1按需使用330
11.5.2无处不在的访问330
11.5.3多租户机制(和资源池机制)330
11.5.4弹性330
11.5.5监测应用状态330
11.5.6弹性计算331
11.6云交付模型331
11.6.1基础设施即服务331
11.6.2平台即服务331
11.6.3软件即服务332
11.6.4整合云交付模型332
11.7云部署模型333
11.7.1公共云333
11.7.2社区云334
11.7.3私有云334
11.7.4混合云334
11.8本章小结335
第12章使用亚马逊Web服务337
12.1AmazonElasticComputeCloud337
12.1.1弹性Web计算337
12.1.2对操作的完整控制338
12.1.3灵活的云托管服务338
12.1.4集成338
12.1.5高可靠性338
12.1.6安全性338
12.1.7经济性338
12.1.8易于启动339
12.1.9亚马云及其镜像339
12.2启用多个AMI实例340
12.2.1实例340
12.2.2AMI340
12.2.3区域和可用区340
12.2.4区域和可用区概念341
12.2.5区域341
12.2.6可用区341
12.2.7可用区域342
12.2.8区域和端点342
12.2.9实例类型343
12.2.10AmazonEC2和亚马逊虚拟私有云343
12.3AWSLambda344
12.4AmazonS3简介345
12.4.1AmazonS3功能345
12.4.2全面的安全和协从能力346
12.4.3就地查询346
12.4.4灵活的管理机制346
12.4.5最受支持的平台以及最大的生态系统347
12.4.6简单、方便的数据传输机制347
12.4.7备份和恢复347
12.4.8数据存档347
12.4.9数据湖和数据分析348
12.4.10混合云存储348
12.4.11原生云应用程序数据348
12.4.12灾难恢复348
12.5AmazonDynamoDB349
12.6AmazonKinesisDataStreams349
12.6.1加速日志和数据提要的输入和处理350
12.6.2实时度量和报告机制350
12.6.3实时数据分析350
12.6.4复杂的数据流处理350
12.6.5KinesisDataStreams的优点350
12.7AWSGlue351
12.8AmazonEMR352
12.9本章小结363

下载价格:免费
立即下载
登入/注册
知识就是力量
没有账号? 忘记密码?