《大数据技术与应用》PDF电子书免费下载

作者:  侯勇

出版年: 2020年6月1日

ISBN: 9787564374341

~~滚到底部有网盘下载链接~~

内容简介

目录

大数据技术篇
第1章 Hadoop 3
1.1 大数据概述 3
1.2 大数据解决方案 5
1.3 Hadoop简介 7
1.4 环境设置 8
1.5 多节点集群安装 15
1.6 HDFS概述 22
1.7 HDFS操作 24
1.8 命令参考 25
1.9 MapReduce 26
1.10 MapReduce在Hadoop上的实现 32
1.11 MapReduce分区器 39
1.12 Combiner 49
1.13 Hadoop管理 56
1.14 应用程序接口 59
1.15 HadoopStreaming 64
第2章 HBase 69
2.1 HBase概述 69
2.2 HBase的架构 73
2.3 HBase的安装 75
2.4 HBase Shell 80
2.5 HBase的常用命令 82
2.6 Admin API 83
2.7 创建表 84
2.8 列表 86
2.9 禁用表 88
2.10 启用表 91
2.11 Describe与Alter命令 94
2.12 Exists命令 100
2.13 删除表 102
2.14 Exit命令 105
2.15 客户端API 107
2.16 创建数据 110
2.17 更新数据 114
2.18 读取数据 117
2.19 删除数据 120
2.20 扫描 123
2.21 Count和Truncate 126
2.22 安全 126
第3章 Hive 128
3.1 Hive概述 128
3.2 安装 130
3.3 数据类型 133
3.4 创建数据库 135
3.5 删除数据库 137
3.6 创建表 139
3.7 更改表 143
3.8 删除表 149
3.9 分区 151
3.10 内置运算符 152
3.11 HiveQL查询语句 155
3.12 内置函数 165
3.13 查看和索引 168
第4章 Spark 171
4.1 Spark概述 171
4.2 RDD 172
4.3 Spark的安装 175
4.4 Spark 核心编程 176
4.5 Spark的部署 181
4.6 Spark高级编程 184
4.7 Spark SQL简介 186
4.8 Spark SQL DataFrame 187
4.9 Spark SQL的数据源 190
大数据技术应用篇
第5章 基本统计 193
5.1 相关性 193
5.2 假设检验 194
5.3 累积器 196
5.4 摘要统计 197
5.5 分层抽样 198
5.6 流数据显著性检验 199
5.7 随机数据生成 201
5.8 核密度估计 202
第6章 数据源与管道 204
6.1 数据源 204
6.2 ML管道 204
第7章 提取、转换和选择特征 212
7.1 术语频率-逆文档频率 212
7.2 Word2Vec 216
7.3 CountVectorizer 217
7.4 FeatureHasher 219
7.5 StandardScaler 221
7.6 Normalizer 223
7.7 ChiSqSelector 226
7.8 ElementwiseProduct 228
第8章 特征转换器 230
8.1 Tokenizer 230
8.2 StopWordsRemover 231
8.3 Binarizer 233
8.4 PCA 234
8.5 N-Gram 237
参考文献 239

下载价格:免费
立即下载
登入/注册
知识就是力量
没有账号? 忘记密码?