《Hive性能调优实战》PDF电子书免费下载

作者:  林志煌 编著

出版社: 机械工业出版社  

出版年:  2020-01

ISBN: 9787111644323

~~滚到底部有网盘下载链接~~

内容简介

目录

前言
第1章 举例感受Hive性能调优的多样性
1.1 感受改写SQL对性能的影响
1.2 感受调整数据块大小对性能的影响
1.3 感受不同数据格式对性能的提升
1.4 感受不同的表设计对性能的影响
1.5 调优其实不难
第2章 Hive问题排查与调优思路
2.1 小白推演Hive的优化方法
2.2 老工对Hive的调优理解
2.3 总结调优的一般性过程
第3章 环境搭建
3.1 Docker基础
3.2 Cloudera Docker搭建伪分布式环境
3.3 Docker搭建分布式集群
3.4 CDM搭建分布式集群
3.5 使用GitHub开源项目构建集群
第4章 Hive及其相关大数据组件
4.1 Hive架构
4.2 YARN组件
4.3 HDFS架构
4.4 计算引擎
第5章 深入MapReduce计算引擎
5.1 MapReduce整体处理过程
5.2 MapReduce作业输入
5.3 MapReduce的Mapper
5.4 MapReduce的Reducer
5.5 MapReduce的Shuffle
5.6 MapReduce的Map端聚合
5.7 MapReduce作业输出
5.8 MapReduce作业与Hive配置
5.9 MapReduce与Tez对比
第6章 HiveSQL执行计划
6.1 查看SQL的执行计划
6.2 简单SQL的执行计划解读
6.3 带普通函数/操作符SQL的执行计划解读
6.4 带聚合函数的SQL执行计划解读
6.5 带窗口/分析函数的SQL执行计划解读
6.6 表连接的SQL执行计划解读
第7章 Hive数据处理模式
7.1 过滤模式
7.2 聚合模式
7.3 连接模式
第8章 YARN日志
8.1 查看YARN日志的方式
8.2 快速查看集群概况
8.3 查看集群节点概况
8.4 查看集群的队列调度情况
8.5 查看集群作业运行信息
第9章 数据存储
9.1 文件存储格式之Apache ORC
9.2 与ORC相关的Hive配置
9.3 文件存储格式之Apache Parquet
9.4 数据归档
第10章 发现并优化Hive中的
10.1 监控Hive数据库的状态
10.2 监控当前集群状态
10.3 定位性能瓶颈
10.4 数据倾斜
第11章 Hive知识体系总结
11.1 Hive知识体系
11.2 数据粒度
11.3 SQL相关
11.4 文件操作

下载价格:免费
立即下载
登入/注册
知识就是力量
没有账号? 忘记密码?