《大数据日知录:架构与算法》PDF电子书免费下载

作者:  张俊林

出版社: 电子工业出版社

ISBN: 7121241536

~~滚到底部有网盘下载链接~~

内容简介

目录

第0章当谈论大数据时我们在谈什么1
0.1大数据是什么2
0.2大数据之翼:技术范型转换4
0.3大数据商业炼金术6
0.4“大数据”在路上7
第1章数据分片与路由9
1.1抽象模型10
1.2哈希分片(HashPartition)11
1.2.1RoundRobin11
1.2.2虚拟桶(VirtualBuckets)12
1.2.3一致性哈希(ConsistentHashing)13
1.3范围分片(RangePartition)18
参考文献19
第2章数据复制与一致性20
2.1基本原则与设计理念21
2.1.1原教旨CAP主义21
2.1.2CAP重装上阵(CAPReloaded)23
2.1.3ACID原则24
2.1.4BASE原则24
2.1.5CAP/ACID/BASE三者的关系25
2.1.6幂等性(Idempotent)26
2.2一致性模型分类26
2.2.1强一致性27
2.2.2最终一致性28
2.2.3因果一致性28
2.2.4“读你所写”一致性29
2.2.5会话一致性29
2.2.6单调读一致性30
2.2.7单调写一致性30
2.3副本更新策略30
2.3.1同时更新30
2.3.2主从式更新31
2.3.3任意节点更新32
2.4一致性协议32
2.4.1两阶段提交协议(Two—PhraseCommit,2PC)33
2.4.2向量时钟(VectorClock)38
2.4.3RWN协议40
2.4.4Paxos协议42
2.4.5Raft协议45
参考文献49
第3章大数据常用的算法与数据结构51
3.1布隆过滤器(BloomFilter)51
3.1.1基本原理52
3.1.2误判率及相关计算52
3.1.3改进:计数BloomFilter53
3.1.4应用54
3.2SkipList55
3.3LSM树58
3.4Merkle哈希树(MerkleHashTree)62
3.4.1Merkle树基本原理62
3.4.2Dynamo中的应用63
3.4.3比特币中的应用63
3.5Snappy与LZSS算法65
3.5.1LZSS算法65
3.5.2Snappy67
3.6Cuckoo哈希(CuckooHashing)67
3.6.1基本原理68
3.6.2应用:SILT存储系统68
参考文献70
第4章集群资源管理与调度71
4.1资源管理抽象模型72
4.1.1概念模型72
4.1.2通用架构73
4.2调度系统设计的基本问题74
4.2.1资源异质性与工作负载异质性74
4.2.2数据局部性(DataLocality)75
4.2.3抢占式调度与非抢占式调度75
4.2.4资源分配粒度(AllocationGranularity)76
4.2.5饿死(Starvation)与死锁(DeadLock)问题76
4.2.6资源隔离方法77
4.3资源管理与调度系统范型77
4.3.1集中式调度器(MonolithicScheduler)78
4.3.2两级调度器(Two—LevelScheduler)79
4.3.3状态共享调度器(Shared—StateScheduler)79
4.4资源调度策略81
4.4.1FIFO调度策略81
4.4.2公平调度器(FairScheduler)81
4.4.3能力调度器(CapacityScheduler)82
4.4.4延迟调度策略(DelayScheduling)82
4.4.5主资源公平调度策略(DominantResourceFairScheduling)82
4.5Mesos84
4.6YARN87
参考文献90
第5章分布式协调系统91
5.1Chubby锁服务92
5.1.1系统架构93
5.1.2数据模型94
5.1.3会话与KeepAlive机制95
5.1.4客户端缓存95
5.2ZooKeeper96
5.2.1体系结构96
5.2.2数据模型(DataModel)97
5.2.3API98
5.2.4ZooKeeper的典型应用场景98
5.2.5ZooKeeper的实际应用103
参考文献104
第6章分布式通信106
6.1序列化与远程过程调用框架107
6.1.1ProtocolBuffer与Thrift108
6.1.2Avro109
6.2消息队列110
6.2.1常见的消息队列系统110
6.2.2Kafka111
6.3应用层多播通信(Application—LevelMulti—Broadcast)114
6.3.1概述114
6.3.2Gossip协议115
参考文献118
第7章数据通道120
7.1Log数据收集120
7.1.1Chukwa121
7.1.2Scribe122
7.2数据总线123
7.2.1Databus125
7.2.2Wormhole127
7.3数据导入/导出128
参考文献129
第8章分布式文件系统131
8.1Google文件系统(GFS)132
8.1.1GFS设计原则132
8.1.2GFS整体架构133
8.1.3GFS主控服务器134
8.1.4系统交互行为136
8.1.5Colossus137
8.2HDFS138
8.2.1HDFS整体架构139
8.2.2HA方案140
8.2.3NameNode联盟143
8.3HayStack存储系统145
8.3.1HayStack整体架构146
8.3.2目录服务147
8.3.3HayStack缓存148
8.3.4HayStack存储系统的实现148
8.4文件存储布局150
8.4.1行式存储151
8.4.2列式存储151
8.4.3混合式存储156
8.5纠删码(ErasureCode)158
8.5.1Reed—Solomon编码159
8.5.2LRC编码164
8.5.3HDFS—RAID架构166
参考文献166
……
第9章内存KV数据库168
第10章列式数据库176
第11章大规模批处理系统199
第12章流式计算219
第13章交互式数据分析240
第14章图数据库:架构与算法271
第15章机器学习:范型与架构313
第16章机器学习:分布式算法337
第17章增量计算366
附录A硬件体系结构及常用性能指标378
附录B大数据必读文献380

下载价格:免费
立即下载
登入/注册
知识就是力量
没有账号? 忘记密码?