《Hadoop大数据解决方案》PDF电子书免费下载

作者:  [美] Benoy Antony、Konstantin Boudnik、Cheryl Adams、Branky Shao、Cazen Lee、Kai Sasaki

出版社: 清华大学出版社

出版年: 2017年2月

ISBN: 9787302466451

~~滚到底部有网盘下载链接~~

内容简介

目录

第1章 Hadoop概述 1
1.1 商业分析与大数据 2
1.1.1 Hadoop的组件 3
1.1.2 Hadoop分布式文件系统(HDFS) 3
1.1.3 MapReduce是什么 4
1.1.4 YARN是什么 5
1.2 ZooKeeper是什么 6
1.3 Hive是什么 7
1.4 与其他系统集成 8
1.4.1 Hadoop生态系统 9
1.4.2 数据集成与Hadoop 11
1.5 小结 16
第2章 存储 19
2.1 Hadoop HDFS的基础知识 20
2.1.1 概念 21
2.1.2 架构 25
2.1.3 接口 29
2.2 在分布式模式下设置HDFS群集 35
2.3 HDFS的高级特性 40
2.3.1 快照 41
2.3.2 离线查看器 44
2.3.3 分层存储 52
2.3.4 纠删码 55
2.4 文件格式 59
2.5 云存储 63
2.6 小结 64
第3章 计算 65
3.1 Hadoop MapReduce的基础 66
3.1.1 概念 66
3.1.2 架构 69
3.2 如何启动MapReduce作业 76
3.2.1 编写Map任务 77
3.2.2 编写reduce任务 79
3.2.3 编写MapReduce作业 80
3.2.4 配置 83
3.3 MapReduce的高级特性 85
3.3.1 分布式缓存 85
3.3.2 计数器 87
3.3.3 作业历史服务器 89
3.4 与Spark作业的区别 91
3.5 小结 92
第4章 用户体验 93
4.1 Apache Hive 94
4.1.1 安装Hive 96
4.1.2 HiveQL 97
4.1.3 UDF/SerDe 103
4.1.4 Hive调优 105
4.2 Apache Pig 106
4.2.1 安装Pig 107
4.2.2 Pig Latin 108
4.3 UDF 110
4.4 Hue 111
4.5 Apache Oozie 114
4.5.1 安装Oozie 115
4.5.2 Oozie的工作原理 118
4.5.3 工作流/协调器 119
4.5.4 Oozie CLI 124
4.6 小结 124
第5章 与其他系统集成 125
5.1 Apache Sqoop 126
5.2 Apache Flume 130
5.3 Apache Kafka 136
5.3.1 工作原理 138
5.3.2 Kafka Connect 141
5.3.3 流处理 143
5.4 Apache Storm 144
5.4.1 工作原理 145
5.4.2 Trident 148
5.4.3 Kafka集成 149
5.5 小结 152
第6章 Hadoop安全 153
6.1 提升Hadoop群集安全性 154
6.1.1 边界安全 154
6.1.2 Kerberos认证 156
6.1.3 Hadoop中的服务级授权 162
6.1.4 用户模拟 167
6.1.5 提升HTTP信道的安全性 170
6.2 提升数据安全性 174
6.2.1 数据分类 175
6.2.2 将数据传到群集 176
6.2.3 保护群集中的数据 182
6.3 增强应用程序安全性 189
6.3.1 YARN架构 189
6.3.2 YARN中的应用提交 190
6.4 小结 195
第7章 自由的生态圈:Hadoop与Apache BigTop 197
7.1 基础概念 198
7.1.1 软件栈 199
7.1.2 测试栈 200
7.1.3 在我的笔记本电脑上工作 201
7.2 开发定制的软件栈 201
7.2.1 Apache Bigtop:历史 201
7.2.2 Apache Bigtop:概念和哲学思想 202
7.2.3 项目结构 204
7.2.4 谈谈构建系统 205
7.2.5 工具链和开发环境 206
7.2.6 BOM定义 207
7.3 部署 208
7.3.1 Bigtop Provisioner 208
7.3.2 群集的无主节点Puppet部署 209
7.3.3 使用Puppet进行配置管理 213
7.4 集成验证 215
7.4.1 iTests和验证应用程序 216
7.4.2 栈集成测试开发 217
7.4.3 栈的验证 220
7.4.4 群集故障测试 221
7.4.5 栈的冒烟测试 222
7.5 将所有工作组合在一起 223
7.6 小结 224
第8章 Hadoop软件栈的In-Memory计算 227
8.1 In-Memory计算简介 229
8.2 Apache Ignite:内存优先 231
8.2.1 Apache Ignite的系统体系架构 232
8.2.2 数据网格 233
8.2.3 高可用性讨论 236
8.2.4 计算网格 237
8.2.5 服务网格 238
8.2.6 内存管理 238
8.2.7 持久化存储 240
8.3 使用Ignite加速旧式Hadoop 240
8.3.1 In-Memory存储的好处 241
8.3.2 内存文件系统:HDFS缓存 242
8.3.3 In-Memory MapReduce 243
8.4 Apache Ignite的高级用法 247
8.4.1 Spark和Ignite 247
8.4.2 共享状态 249
8.4.3 Hadoop上的In-Memory SQL 251
8.4.4 使用Ignite的SQL 252
8.4.5 使用Apache Ignite进行流处理 255
8.5 小结 256
术语表 259

下载价格:免费
立即下载
登入/注册
知识就是力量
没有账号? 忘记密码?