《实战Hadoop大数据处理》PDF电子书免费下载

作者:  曾刚

出版社: 清华大学出版社

出版年: 2015年8月

ISBN: 9787302411444

~~滚到底部有网盘下载链接~~

内容简介

目录

第1章大数据概述1
1.1大数据简介1
1.1.1大数据的概念与特点2
1.1.2大数据研究的背景4
1.1.3大数据的应用示例5
1.1.4大数据研究的意义6
1.2大数据处理技术简介6
1.2.1大数据的关键技术6
1.2.2大数据处理模式及其系统9
1.3大数据带来的挑战13
1.4大数据的研究与发展方向14
第2章Hadoop简介16
2.1Hadoop项目起源17
2.2Hadoop的由来19
2.3Hadoop核心组件及相关项目简介21
2.4Hadoop的版本衍化26
2.5Hadoop的发展趋势26
第3章Hadoop的安装28
3.1安装Ubuntu Server28
3.1.1VMware网络适配器的连接模式28
3.1.2“仅主机模式”网络的设置29
3.1.3安装Ubuntu Server31
3.1.4远程管理Ubuntu Server37
3.1.5安装JDK39
3.1.6克隆其他虚拟机41
3.1.7配置hosts文件43〖2〗〖4〗实战Hadoop大数据处理〖3〗3.2配置SSH公钥认证43
3.2.1为什么要公钥认证43
3.2.2公钥认证的工作原理44
3.2.3SSH客户端的安装44
3.2.4SSH配置45
3.2.5配置SecureCRT公钥登录Linux服务器47
3.3安装配置Hadoop49
3.3.1单机安装50
3.3.2伪分布模式的安装51
3.3.3分布式安装53
3.3.4Hadoop管理员常用命令58
3.4双NameNode分布式安装Hadoop 2.2.063
3.4.1安装配置Zookeeper集群64
3.4.2安装Hadoop 2.2.065
第4章HDFS文件系统71
4.1互联网时代对存储系统的新要求71
4.2HDFS系统的特点72
4.3HDFS文件系统73
4.3.1HDFS系统组成73
4.3.2HDFS文件数据的存储组织75
4.3.3元数据及其备份机制77
4.3.4数据块备份79
4.3.5数据的读取过程80
4.3.6数据的写入过程81
4.4HDFS Shell命令82
4.5API访问HDFS88
4.5.1编译Hadoop的Eclipse插件88
4.5.2在Eclipse中安装Hadoop插件90
4.5.3Hadoop URL读取数据92
4.5.4FileSystem类93
4.5.5取得HDFS的元信息97
4.6HDFS的高可用性99
4.6.1元数据的备份99
4.6.2使用SecondaryName进行备份100
4.6.3BackupNode备份100
4.6.4Hadoop 2.X中HDFS的高可用性实现原理100
4.6.5Federation机制101
4.7HDFS中小文件存储问题105
4.7.1文件归档技术105
4.7.2SequenceFile格式108
4.7.3CombineFileInputFormat108
第5章MapReduce原理及开发110
5.1初识MapReduce110
5.1.1试用WordCount110
5.1.2自己编写WordCount111
5.1.3WordCount处理过程118
5.2MapReduce工作原理119
5.2.1MapReduce数据处理过程119
5.2.2MapReduce框架组成120
5.2.3MapReduce运行原理121
5.3Shuffle和Sort123
5.3.1Map端的Shuffle124
5.3.2Reduce端Shuffle126
5.3.3Shuffle过程优化127
5.4任务的执行128
5.4.1推测执行128
5.4.2任务JVM重用129
5.4.3跳过坏的记录129
5.4.4任务执行的信息129
5.5故障处理130
5.5.1任务失败130
5.5.2TaskTracker失败130
5.5.3JobTracker失败130
5.5.4任务失败重试的处理方法130
5.6作业调度131
5.6.1先进先出(FIFO)调度器131
5.6.2能力调度器132
5.6.3公平调度器132
5.7MapReduce编程接口132
5.7.1InputFormat——输入格式类133
5.7.2FileInputFormat——文件输入格式类134
5.7.3InputSplit——数据分块类134
5.7.4RecordReader——记录读取类135
5.7.5Mapper类135
5.7.6Reducer类136
5.7.7OutputFormat——输出格式类137
5.7.8FileOutputFormat类——文件输出格式类138
5.7.9RecordWriter类——记录输出类138
5.8MapReduce应用开发138
5.8.1计数类应用139
5.8.2去重计数类应用143
5.8.3简单排序类应用145
5.8.4倒排索引类应用148
5.8.5二次排序类应用154
第6章HBase数据库160
6.1HBase介绍160
6.1.1互联网时代对数据库的要求160
6.1.2HBase的特点160
6.2HBase架构与原理161
6.2.1系统的架构及组成161
6.2.2HBase逻辑视图163
6.2.3HBase的物理模型164
6.2.4元数据表165
6.3安装HBase166
6.3.1单机模式安装166
6.3.2伪分布模式安装168
6.3.3分布式安装169
6.4HBase Shell操作171
6.4.1基本Shell命令171
6.4.2DDL操作172
6.4.3DML操作174
6.4.4HBase Shell脚本176
6.5基于API使用HBase176
6.5.1API简介177
6.5.2表操作示例179
6.5.3数据操作示例181
6.5.4Filter的应用与示例184
6.6MapReduce操作HBase数据191
6.6.1HBase MapReduce汇总到文件193
6.6.2HBase MapReduce汇总到HBase195
6.7HBase优化196
6.7.1JVM GC优化196
6.7.2HBase参数调优197
6.7.3表设计优化199
6.7.4读优化200
6.7.5写优化201
第7章Hive数据仓库202
7.1Hive简介202
7.1.1数据分析工具应具有的特征202
7.1.2Pig与Hive的比较202
7.1.3Hive架构203
7.1.4Hive的元数据存储205
7.1.5Hive文件存储格式206
7.1.6Hive支持的数据类型207
7.2Hive的安装207
7.2.1安装MySQL207
7.2.2安装Hive209
7.2.3Hive的用户接口211
7.3Hive QL讲解214
7.3.1DDL命令214
7.3.2DML操作219
7.3.3SELECT查询222
7.4Hive复杂类型228
7.4.1Array(数组)228
7.4.2Map类型229
7.4.3Struct类型229
7.5Hive函数230
7.5.1Hive内置函数230
7.5.2Hive用户自定义函数231
第8章数据整合235
8.1大数据整合问题235
8.2Sqoop 1.4X整合工具236
8.3Sqoop2整合工具240
第9章典型应用案例介绍245
9.1大数据在智能交通中的应用245
9.1.1交通运输业面临的挑战245
9.1.2智能交通大数据平台的架构247
9.1.3数据分析层的数据基础分析248
9.2大数据在情报分析中的应用253
9.2.1公安情报分析的现状254
9.2.2大数据情报分析系统架构254
9.2.3数据的整合255
9.2.4情报分析的方法256
9.2.5基于文本的串并案件聚类分析257
参考文献264

下载价格:免费
立即下载
登入/注册
知识就是力量
没有账号? 忘记密码?