《文本数据挖掘 基于R语言》PDF电子书免费下载

作者:  黄天元

出版社: 机械工业出版社

出版年: 2021年04月

ISBN: 9787111677505

~~滚到底部有网盘下载链接~~

内容简介

目录

目录

前言
第1章 走进文本数据挖掘1
1.1 什么是文本数据挖掘1
1.2 为什么要做文本数据挖掘2
1.3 如何进行文本数据挖掘2
1.3.1 文本数据挖掘的流程2
1.3.2 文本数据挖掘的基本任务及方法4
1.4 文本数据挖掘软件工具概览5
第2章 文本数据挖掘利器—R语言7
2.1 开发环境配置7
2.1.1 下载并安装R软件7
2.1.2 包的管理8
2.1.3 版本升级9
2.1.4 集成开发环境10
2.2 R的基本数据类型11
2.2.1 数值型12
2.2.2 逻辑型12
2.2.3 字符型12
2.2.4 因子型13
2.3 R的常用数据结构13
2.3.1 向量13
2.3.2 矩阵14
2.3.3 列表14
2.3.4 数据框15
2.4 R的基础编程知识15
2.4.1 赋值15
2.4.2 函数16
2.4.3 强制类型转换16
2.4.4 条件判断17
2.4.5 循环操作17
2.5 数据操作入门19
2.5.1 文件读写19
2.5.2 数据框的检视25
2.5.3 单表操作28
2.5.4 多表操作37
2.5.5 缺失值处理42
2.5.6 长宽数据转换46
第3章 从基础做起1—字符串的基本处理51
3.1 字符串的构造51
3.2 字符串的辨识、计数与定位52
3.3 字符串的提取53
3.4 字符串的定制化输出54
3.5 字符串的替换与删除56
3.6 字符串的拼接与拆分57
3.7 字符串的排序57
第4章 从基础做起2—用好正则表达式59
4.1 通配符解析59
4.1.1 点运算符(“.”)60
4.1.2 字符集(“[]”)60
4.1.3 否定字符集(“[^ ]”)61
4.1.4 出现0次或更多(“*”)61
4.1.5 出现1次或更多(“ ”)62
4.1.6 出现0次或1次(“?”)62
4.1.7 出现次数范围限制(“{}”)62
4.1.8 特征标群(“(...)”)62
4.1.9 或运算符(“|”)63
4.1.10 转义字符(“\\”)63
4.1.11 匹配开头部分(“^”)63
4.1.12 匹配结尾部分(“$”)64
4.2 反向引用64
4.3 简写字符集65
4.4 贪婪匹配与惰性匹配66
4.5 零宽断言67
4.5.1 正先行断言(“?=...”)67
4.5.2 负先行断言(“?!...”)68
4.5.3 正后发断言(“?<= ...”)684.5.4 负后发断言(“?4.5.5 提取括号中的内容68第5章 步入正题—导入各类文本数据705.1 readtext包简介705.2 不同格式文本文件的导入705.2.1 读取txt文件715.2.2 读取csv/tsv文件725.2.3 读取json文件745.2.4 读取pdf文件745.2.5 读取Word文件755.2.6 读取html文件755.2.7 读取压缩包755.3 读入不同编码格式的文档765.4 文件数据结构的转化77第6章 更进一步—对各类文本数据进行预处理796.1 拼写纠错796.2 文本切分806.2.1 段落切分816.2.2 句子切分826.2.3 词语切分826.2.4 n元切分856.2.5 字符切分856.3 去除标点866.4 去除停用词866.5 扩展缩写876.6 词干提取876.7 词形还原与词性标注886.8 批量文档预处理90第7章 上手文本数据挖掘—文本特征提取的4种方法927.1 基本特征提取927.2 基于TF-IDF的特征提取947.3 词嵌入967.3.1 基于BOW967.3.2 基于word2vec987.3.3 基于GloVe1007.3.4 基于fastText1017.4 文档向量化:doc2vec102第8章 文本分类—基于机器学习的方法1058.1 无监督分类1058.1.1 基于文本相似度的聚类1058.1.2 基于网络集群识别的自动化聚类1208.1.3 基于主题模型的分类1258.2 有监督分类1298.2.1 二分类1298.2.2 多分类136第9章 深入理解文本内涵—文本情感分析1429.1 英文情感分析1429.1.1 RSentiment1439.1.2 sentimentr1449.1.3 SentimentAnalysis1459.1.4 meanr1479.1.5 sentometrics1489.2 中文情感分析1519.2.1 环境与数据准备1519.2.2 情感词典准备1519.2.3 中文分词1529.2.4 分值计算1529.2.5 小结152第10章 文本数据的直观表达—文本可视化15310.1 条形图15310.2 克利夫兰点图15510.3 矩形树状图15610.4 词云15710.5 词汇位置分布图15910.6 网络图16410.7 双文档对比可视化167第11章 举一反三—文本数据挖掘项目实践17011.1 情感分析案例:量化中文新闻报道中的情感走势17011.2 文本分类案例:基于词袋模型对英文期刊摘要来源进行分类17611.3 关键词提取案例:根据CRAN的介绍文本提取R包关键字181显示部分信息

下载价格:免费
立即下载
登入/注册
知识就是力量
没有账号? 忘记密码?