《Python大数据处理库PySpark实战》PDF电子书免费下载

作者:  汪明

出版社: 清华大学出版社  

出版年:  2021-03

ISBN: 9787302575085

~~滚到底部有网盘下载链接~~

内容简介

目录

内容简介
前言
本书特点
源码下载
本书运行环境说明
本书读者
本书作者
第1章 大数据时代
1.1 什么是大数据
1.2 大数据下的分析工具
1.3 小结
第2章 大数据的瑞士军刀——Spark
2.1 Hadoop与生态系统
2.2 Spark与Hadoop
2.3 Spark核心概念
2.4 Spark基本操作
2.5 SQL in Spark
2.6 Spark与机器学习
2.7 小结
第3章 Spark实战环境设定
3.1 建立Spark环境前提
3.2 一分钟建立Spark环境
3.3 建立Hadoop集群
3.4 安装与配置Spark集群
3.5 安装与配置Hive
3.6 打造交互式Spark环境
3.7 小结
第4章 活用PySpark
4.1 Python语法复习
4.2 用PySpark建立第一个Spark RDD
4.3 RDD的操作与观察
4.4 共享变数
4.5 DataFrames与Spark SQL
4.6 撰写第一个Spark程序
4.7 提交你的Spark程序
4.8 小结
第5章 PySpark ETL实战
5.1 认识资料单元格式
5.2 观察资料
5.3 选择、筛选与聚合
5.4 存储数据
5.5 Spark存储数据到SQL Server
5.6 小结
第6章 PySpark分布式机器学习
6.1 认识数据格式
6.2 描述统计
6.3 资料清理与变形
6.4 认识Pipeline
6.5 逻辑回归原理与应用
6.6 决策树原理与应用
6.7 小结
第7章 实战:PySpark+Kafka实时项目
7.1 Kafka和Flask环境搭建
7.2 代码实现
7.3 小结

下载价格:免费
立即下载
登入/注册
知识就是力量
没有账号? 忘记密码?