《Spark大数据处理技术》PDF电子书免费下载

作者:  夏俊鸾刘旭晖邵赛赛程浩史鸣飞黄洁

出版社: 电子工业出版社  

出版年:  2014-01

ISBN: 9787121250811

~~滚到底部有网盘下载链接~~

内容简介

目录


前言
第1章 Spark系统概述
1.1 大数据处理框架
1.2 Spark大数据处理框架
1.2.1 RDD表达能力
1.2.2 Spark子系统
1.3 小结
第2章 Spark RDD及编程接口
2.1 Spark程序“Hello World”
2.2 Spark RDD
2.2.1 RDD分区(partitions)
2.2.2 RDD优先位置(preferredLocations)
2.2.3 RDD依赖关系(dependencies)
2.2.4 RDD分区计算(compute)
2.2.5 RDD分区函数(partitioner)
2.3 创建操作
2.3.1 集合创建操作
2.3.2 存储创建操作
2.4 转换操作
2.4.1 RDD基本转换操作
2.4.2 键值RDD转换操作
2.4.3 再论RDD依赖关系
2.5 控制操作(control operation)
2.6 行动操作(action operation)
2.6.1 集合标量行动操作
2.6.2 存储行动操作
2.7 小结
第3章 Spark运行模式及原理
3.1 Spark运行模式概述
3.1.1 Spark运行模式列表
3.1.2 Spark基本工作流程
3.1.3 相关基本类
3.2 Local模式
3.2.2 内部实现原理
3.3 Standalone模式
3.3.2 内部实现原理
3.4 Local cluster模式
3.4.2 内部实现原理
3.5 Mesos模式
3.5.2 内部实现原理
3.6 YARN standalone/YARN cluster模式
3.6.2 内部实现原理
3.7 YARN client模式
3.7.2 内部实现原理
3.8 各种模式的实现细节比较
3.8.1 环境变量的传递
3.8.2 JAR包和各种依赖文件的分发
3.8.3 任务管理和序列化
3.8.4 用户参数配置
3.8.5 用户及权限控制
3.9 Spark 1.0版本之后的变化
3.10 小结
第4章 Spark调度管理原理
4.1 Spark作业调度管理概述
4.2 Spark调度相关基本概念
4.3 作业调度模块顶层逻辑概述
4.4 作业调度具体工作流程
4.4.1 调度阶段的拆分
4.4.2 调度阶段的提交
4.4.3 任务集的提交
4.4.4 完成状态的监控
4.4.5 任务结果的获取
4.5 任务集管理模块详解
4.6 调度池和调度模式分析
4.7 其他调度相关内容
4.7.1 Spark应用之间的调度关系
4.7.2 调度过程中的数据本地性问题
4.8 小结
第5章 Spark的存储管理
5.1 存储管理模块整体架构
5.1.1 通信层架构
5.1.2 通信层消息传递
5.1.3 注册存储管理模块
5.1.4 存储层架构
5.1.5 数据块(Block)
5.2 RDD持久化
5.2.1 RDD分区和数据块的关系
5.2.2 内存缓存
5.2.3 磁盘缓存
5.2.4 持久化选项
5.2.5 如何选择不同的持久化选项
5.3 Shuffle数据持久化
5.4 广播(Broadcast)变量持久化
5.5 小结
第6章 Spark监控管理
6.1 UI管理
6.1.1  实时UI管理
6.1.2 历史UI管理
6.2 Metrics管理
6.2.1 Metrics系统架构
6.2.2 Metrics系统配置
6.2.3 输入源(Metrics Source)介绍
6.2.4 输出方式(Metrics Sink)介绍
6.3 小结
第7章 Shark架构与安装配置
7.1 Shark架构浅析
7.2 Hive/Shark各功能组件对比
7.2.1 MetaStore
7.2.2 CLI/Beeline
7.2.3 JDBC/ODBC
7.2.4 Hive Server/2与Shark Server/2
7.2.5 Driver
7.2.6 SQL Parser
7.2.7 查询优化器(Query Optimizer)
7.2.8 物理计划与执行
7.3 Shark安装配置与使用
7.3.1 安装前准备工作
7.3.2 在不同运行模式下安装Shark
7.3.2.1 单机运行模式
7.3.2.2 集群运行模式
7.3.2.3 部署在亚马逊云计算平台(AWS)
7.4 Shark SQL命令行工具(CLI)
7.5 使用Shark Shell命令
7.6 启动SharkServer
7.7 Shark Server2配置与启动
7.8 缓存数据表
7.8.1 数据缓存级别
7.8.2 创建不同缓存级别的Shark数据表
7.8.3 指定数据表缓存策略
7.8.4 使用Tachyon
7.9 常见问题分析
7.9.1 OutOfMemory异常
7.9.2 数据处理吞吐量低
7.9.3 Shark查询比Hive慢
7.10 小结
第8章 SQL程序扩展
8.1 程序扩展并行运行模式
8.2 Evaluator和ObjectInspector
8.3 自定义函数扩展
8.3.1 自定义函数扩展分类
8.3.2 CLI中的用户自定义函数扩展相关命令
8.3.3 用户自定义函数(UDF)
8.3.4 通用用户自定义函数(Generic UDF)
8.3.5 用户自定义聚合函数(UDAF)
8.3.6 通用用户自定义聚合函数(Generic UDAF)
8.3.7 通用用户自定义表函数(Generic UDTF)
8.4 自定义数据存取格式
8.4.1 SerDe
8.4.2 StorageHandler
8.5 小结
第9章 Spark SQL
9.1 Spark SQL逻辑架构
9.1.1 Catalyst功能边界
9.1.2 SQL解析阶段
9.1.3 逻辑计划元数据绑定和语义分析阶段
9.1.4 逻辑计划优化阶段
9.1.5 物理计划生成阶段
9.1.6 Shark和Spark SQL对比
9.2 Catalyst上下文(Context)
9.2.1 SQLContext
9.2.2 HiveContext
9.3 SQL DSL API
9.3.1 数据源管理
9.3.1.1 指定数据源
9.3.1.2 数据源管理
9.3.2 SchemaRDD
9.3.3 Row API
9.3.4 数据类型
9.3.5 DSL API举例
9.3.6 表达式计算
9.3.7 Parquet列式存储文件
9.3.8 代码演示
9.4 Java API
9.5 Python API
9.6 Spark SQL CLI
9.7 Thrift服务
9.8 小结
第10章 Spark Streaming流数据处理框架
10.1 快速入门
10.2 Spark Streaming基本概念
10.2.1 链接和初始化
10.2.2 时间和窗口概念
10.2.3 DStream原理
10.2.4 DStream输入源
10.2.5 DStream操作
10.2.6 DStream持久化
10.3 性能调优
10.3.1 运行时间优化
10.3.2 内存使用优化
10.4 容错处理
10.4.1 工作节点失效
10.4.2 驱动节点失效
10.5 DStream作业的产生和调度
10.5.1 作业产生
10.5.2 作业调度
10.5.3 Streaming作业与Spark作业之间的关系
10.6 DStream与RDD关系
10.7 数据接收原理
10.8 自定义数据输入源
10.9 自定义监控接口(StreamingListener)
10.10 Spark Streaming案例分析
10.11 小结
第11章 GraphX计算框架
11.1 图并行计算
11.1.1 数据并行与图并行计算
11.1.2 图并行计算框架简介
11.1.2.1 Pregel
11.1.2.2 GraphLab
11.1.3 GraphX简介
11.2 GraphX模型设计
11.2.1 数据模型
11.2.2 图计算接口
11.3 GraphX模型实现
11.3.1 图的分布式存储
11.3.1.1 边RDD(Edge RDD)
11.3.1.2 顶点RDD(Vertex RDD)
11.3.1.3 路由表(RoutingTable)
11.3.1.4 重复顶点视图(Replicated Vertex View)
11.3.1.5 图的切分策略
11.3.2 图操作执行策略
11.3.3 图操作执行优化
11.3.3.1 结构索引重用
11.3.3.2 顺序扫描和索引扫描
11.3.3.3 顶点数据增量更新
11.3.3.4 顶点数据部分传输
11.3.4 序列化和反序列化
11.3.5 GraphX内置算法库
11.4 GraphX应用
11.4.1 Pregel模型
11.4.2 N维邻接关系计算
11.5 小结
第12章 Tachyon存储系统
12.1 设计原理
12.1.1 高效的内存读写
12.1.2 无副本的可靠性实现——Lineage
12.2 框架设计
12.2.1 主节点
12.2.1.1 主节点的工作职责
12.2.1.2 主节点的容错
12.2.2 工作节点
12.2.3 客户端
12.2.4 读写工作流程
12.2.4.1 读流程
12.2.4.2 写流程
12.3 Tachyon的部署
12.3.1 单机部署
12.3.2 分布式部署
12.3.3 Tachyon的配置
12.4 Tachyon应用
12.4.1 Shark原始表(RawTable)
12.4.2 Spark的堆外RDD
12.4.3 Tachyon用户接口(API)
12.4.3.1 命令行
12.4.3.2 Java程序接口(API)
12.5 相关项目讨论
12.6 小结

下载价格:免费
立即下载
登入/注册
知识就是力量
没有账号? 忘记密码?