作者: 米霖
出版社: 清华大学出版社
出版年: 2020-09
ISBN: 9787302543886
~~滚到底部有网盘下载链接~~
内容简介
本书首先介绍数据分析的方法论,然后介绍数据分析的相关模型方法,并进一步通过数据分析案例,讲解数据分析的思维、方法及模型实现过程。本书重点介绍R语言在数据分析方面的应用,让读者能够快速地使用R语言进行数据分析、构建模型。
本书分为17章,内容包括:使用R语言获取数据、数据分析中的数据处理与数据探索、生存分析、主成分分析、多维缩放、线性回归模型、逻辑回归模型、聚类模型、关联规则、随机森林、支持向量机、神经网络、文本挖掘、社交网络分析,以及H2O机器学习和R语言爬虫这两个关于R语言数据分析的两个延伸内容。
米霖,毕业于华农业大学,本科数学专业,研究生统计学专业,8年R语言项目经验,擅长机器学习、统计模型。曾开发了多门R语言相关课程,课程包括“Shiny初级教程”“R包开发”“H2O机器学习模型”“信用评分模型开发”“R语言文本挖掘”等,学员累计超过5000人。完成过很多数据分析项目,例如广告虚假流量识别项目(通过虚假流量数据的挖掘帮助企业节省了上百万元的营销成本)、信贷中的信用评分项目、电商风控项目等。
本书分为17章,内容包括:使用R语言获取数据、数据分析中的数据处理与数据探索、生存分析、主成分分析、多维缩放、线性回归模型、逻辑回归模型、聚类模型、关联规则、随机森林、支持向量机、神经网络、文本挖掘、社交网络分析,以及H2O机器学习和R语言爬虫这两个关于R语言数据分析的两个延伸内容。
米霖,毕业于华农业大学,本科数学专业,研究生统计学专业,8年R语言项目经验,擅长机器学习、统计模型。曾开发了多门R语言相关课程,课程包括“Shiny初级教程”“R包开发”“H2O机器学习模型”“信用评分模型开发”“R语言文本挖掘”等,学员累计超过5000人。完成过很多数据分析项目,例如广告虚假流量识别项目(通过虚假流量数据的挖掘帮助企业节省了上百万元的营销成本)、信贷中的信用评分项目、电商风控项目等。
目录
作者简介
内容简介
前言
第1章 数据分析项目的流程
1.1 数据分析项目中的角色
1.2 数据分析项目的阶段
1.3 总结
第2章 数据的读取
2.1 RData数据
2.2 readr高效读取数据
2.3 读取Excel数据
2.4 读取SPSS、SAS、STATA数据
2.5 R语言操作数据库
2.6 总结
第3章 数据探索
3.1 缺失值的识别与处理
3.2 异常值
3.3 dlookr数据处理包
3.4 数据相关性
3.5 自动化创建数据探索报告
3.6 总结
第4章 生存分析
4.1 生存分析的基本内容
4.2 使用R语言进行生存分析
4.3 非参数模型
4.4 半参数模型生存分析方法
4.5 参数模型
4.6 随机生存森林模型
4.7 总结
第5章 主成分分析
5.1 概述
5.2 主成分分析详解
5.3 使用R语言进行主成分分析
5.4 总结
第6章 多维缩放
6.1 MDS的工作原理
6.2 在R语言中实现MDS
6.3 MDS的优点
6.4 总结
第7章 线性回归模型
7.1 线性回归模型概述
7.2 在R语言中实现回归模型
7.3 总结
第8章 逻辑回归模型
8.1 逻辑回归的原理
8.2 在R语言中实现逻辑回归模型
8.3 总结
第9章 聚类模型
9.1 概述
9.2 在R语言中实现聚类模型
9.3 总结
第10章 关联规则
10.1 关联规则概述
10.2 关联规则的基本概念
10.3 在R语言中实现关联规划
10.4 总结
第11章 随机森林
11.1 随机森林的基本概念
11.2 在R语言中实现随机森林
11.3 总结
第12章 支持向量机
12.1 概述
12.2 在R语言中实现支持向量机
12.3 总结
第13章 神经网络
13.1 概述
13.2 在R语言中实现神经网络
13.3 总结
第14章 文本挖掘
14.1 概述
14.2 text2vec背景及其基本原理
14.3 DTM与TFIDF的原理和实现
14.4 情感分析
14.5 LDA主题模型及其实现
14.6 构建自动问答系统
14.7 总结
第15章 社交网络分析
15.1 社交网络概述
15.2 igraph简介
15.3 社交网络的常见结构
15.4 社交网络分析算法
15.5 微博社交群体分析
15.6 总结
第16章 H2O机器学习
16.1 H2O机器学习平台
16.2 在R语言中使用H2O
16.3 H2O Flow
16.4 总结
第17章 R语言爬虫
17.1 快速爬取网页数据
17.2 rvest简介
17.3 爬取BOSS直聘数据
17.4 模拟登录
17.5 总结
内容简介
前言
第1章 数据分析项目的流程
1.1 数据分析项目中的角色
1.2 数据分析项目的阶段
1.3 总结
第2章 数据的读取
2.1 RData数据
2.2 readr高效读取数据
2.3 读取Excel数据
2.4 读取SPSS、SAS、STATA数据
2.5 R语言操作数据库
2.6 总结
第3章 数据探索
3.1 缺失值的识别与处理
3.2 异常值
3.3 dlookr数据处理包
3.4 数据相关性
3.5 自动化创建数据探索报告
3.6 总结
第4章 生存分析
4.1 生存分析的基本内容
4.2 使用R语言进行生存分析
4.3 非参数模型
4.4 半参数模型生存分析方法
4.5 参数模型
4.6 随机生存森林模型
4.7 总结
第5章 主成分分析
5.1 概述
5.2 主成分分析详解
5.3 使用R语言进行主成分分析
5.4 总结
第6章 多维缩放
6.1 MDS的工作原理
6.2 在R语言中实现MDS
6.3 MDS的优点
6.4 总结
第7章 线性回归模型
7.1 线性回归模型概述
7.2 在R语言中实现回归模型
7.3 总结
第8章 逻辑回归模型
8.1 逻辑回归的原理
8.2 在R语言中实现逻辑回归模型
8.3 总结
第9章 聚类模型
9.1 概述
9.2 在R语言中实现聚类模型
9.3 总结
第10章 关联规则
10.1 关联规则概述
10.2 关联规则的基本概念
10.3 在R语言中实现关联规划
10.4 总结
第11章 随机森林
11.1 随机森林的基本概念
11.2 在R语言中实现随机森林
11.3 总结
第12章 支持向量机
12.1 概述
12.2 在R语言中实现支持向量机
12.3 总结
第13章 神经网络
13.1 概述
13.2 在R语言中实现神经网络
13.3 总结
第14章 文本挖掘
14.1 概述
14.2 text2vec背景及其基本原理
14.3 DTM与TFIDF的原理和实现
14.4 情感分析
14.5 LDA主题模型及其实现
14.6 构建自动问答系统
14.7 总结
第15章 社交网络分析
15.1 社交网络概述
15.2 igraph简介
15.3 社交网络的常见结构
15.4 社交网络分析算法
15.5 微博社交群体分析
15.6 总结
第16章 H2O机器学习
16.1 H2O机器学习平台
16.2 在R语言中使用H2O
16.3 H2O Flow
16.4 总结
第17章 R语言爬虫
17.1 快速爬取网页数据
17.2 rvest简介
17.3 爬取BOSS直聘数据
17.4 模拟登录
17.5 总结