Name: 从大数据新人到数据架构师必备三本书
Author: 朱凯 董西成 吕兆星 郑传峰 宋天龙 杨晓鹏

从大数据新人到数据架构师必备三本书

对于很多企业而言，大数据的重要性不言而喻，但是如何构建、实施和应用大数据系统却是一个复杂工程。本书让读者认识到大数据不仅仅是数据、技术、架构、应用，更是结合了商业模式、战略定位、信息安全、单位协同、组织保障、实施选型的完整体系。　　本书内容从大数据的规划定位、组织实施和价值提升三个维度展开，兼顾从整体性、全局性、安全性、价值性、技术性、体系性等方面的考虑。　　第一部分：企业大数据战略规划　　主要从宏观的角度介绍大数据的定位、组织保障、解决方案选择和自主实施思路，目的是从全局角度引导建立大数据工作的整体思维。　　第二部分：企业大数据落地实施　　主要从执行层面介绍了大数据落地相关的技术、架构、开发、大数据工作流、应用和价值评估，直接以落地视角解读大数据工作中每个环节涉及到的流程、知识和方法，这也是本书的核心章节。　　第三部分：大数据价值、变革和挑战　　主要涉及大数据的社会价值、当前问题和挑战以及大数据的未来趋势，这是对现有大数据工作的延展以及未来趋势的探索。　　这是一部系统、深度讲解大数据技术栈的著作，从数据收集、数据存储、资源管理与服务协调、计算引擎、数据分析、数据可视化6个层次讲解了整个大数据技术体系中所有核心技术的原理、架构与实践。不仅能让读者从宏观上全面认识整个大数据系统，而且还能让读者从微观上深入理解各种大数据技术的细节。　　本书将以数据在大数据系统中的生命周期为线索，一共17章，分为七个部分：　　第一部分（第1章）：概述　　主要介绍企业级大数据技术框架、技术实现方案和架构，包括Google的大数据技术栈和以Hadoop和Spark为代表的开源技术栈。　　第二部分（第2-4章）：数据收集　　讲解大数据收集相关技术，主要涉及关系型数据收集工具Sqoop与Canel，非关系型数据收集系统Flume以及分布式消息队列Kafka。　　第三部分（第5-7章）：数据存储　　讲解大数据存储相关技术，涉及数据存储格式，分布式文件系统以及分布式数据库三部分，包括Thrift、Protobuf、Avro、HDFS和HBase等。　　第四部分（第8-9章）：分布式协调与资源管理　　讲解资源管理和服务协调相关技术，涉及资源管理和调度系统YARN以及资源协调系统Zookeeper。　　第五部分（第10-13章）：计算引擎　　讲解计算引擎相关技术，涉及批处理、交互式处理以及流式实时处理三类引擎，包括MapReduce、Spark、Impala/Presto、Storm等常用技术。　　第六部分（第14-16章）：数据分析　　讲解数据分析相关技术，涉及基于数据分析语言HQL与SQL，大数据统一编程模型及机器学习库等。　　第七部分（第17章）：应用案例　　讲解了3个企业级大数据综合应用案例，包括Lambda架构、基于大数据技术的数据仓库、用户行为实时统计系统。　　这是一部教你如何从0到1架构与实现一个企业级大数据平台的著作，是作者在大数据和系统架构领域工作超过20000小时的经验总结。　　作者从横向视角出发，手把手教你如何拉通Hadoop体系技术栈，以此搭建一个真实可用、安全可靠的大数据平台。通过阅读本书，大家一定能找到灵感和思路来应对实际工作中面对的问题。　　本书在逻辑上分为三大部分：　　背景篇（第1~2章）：简单阐述了企业级大数据平台的重要性，并指出了作为一个企业级大数据平台应当具备的能力。接着抛砖引玉介绍了通过Hadoop生态体系去构建一个企业级大数据平台可以使用的技术栈的核心概念，如HDFS、HBase、Spark等。　　方法篇（第3~6章）：详细讲解了集群服务、安全网关、服务授权、Kerberos认证、单点登录和集群用户整合等各个方面的背景知识与配置整合步骤。　　扩展篇（第7~8章）：介绍了如何用编写Restful服务的形式进一步扩展平台功能的一些思路，以便提高平台的易用性和可用性。

微信读书推荐值

待评分

从大数据新人到数据架构师必备三本书

朱凯董西成吕兆星郑传峰宋天龙杨晓鹏

前言
企业大数据战略定位 1
1.1 宏观 1
1.2 微观 4
1.2.1 资源协同 5
1.2.2 战略定位 6
1.2.3 启动契机 7
1.2.4 大数据历程 9
1.3 本章小结 12
企业大数据职能规划 13
2.1 大数据组织架构体系 13
2.1.1 大数据部门在企业中的角色 13
2.1.2 常见的大数据职能及职责 17
2.2 大数据职位构建体系 24
2.2.1 基础平台类 24
2.2.2 数据管理类 26
2.2.3 技术研发类 27
2.2.4 产品设计类 30
2.2.5 数据挖掘类 32
2.2.6 数据分析类 33
2.3 大数据制度和流程规范 35
2.3.1 制度和流程规范意义 35
2.3.2 制度和流程规范内容 35
2.3.3 制度和流程规范模板 42
2.4 本章小结 44
企业大数据解决方案 45
3.1 企业大数据解决方案实现方式 45
3.1.1 独立研发 45
3.1.2 第三方解决方案 46
3.1.3 联合开发 57
3.2 如何选择解决方案 58
3.2.1 外部环境分析 58
3.2.2 内部环境分析 59
3.2.3 需求规划分析 62
3.2.4 解决方案特性分析 63
3.2.5 解决方案费用评估 67
3.3 本章小结 70
企业大数据自主实施思路 71
4.1 制定规划原则 71
4.2 制定目标蓝图 75
4.3 制定建设目标 76
4.4 明确组织规划 78
4.5 设计技术方案 85
4.6 制定人才规划 94
4.7 投入产出评估 97
4.8 数据风险管理 105
4.9 本章小结 114
大数据技术介绍 115
5.1 核心技术 115
5.2 相关技术 204
5.3 大数据算法库 250
5.4 本章小结 276
大数据架构设计 277
6.1 大数据架构设计原则 277
6.2 大数据核心架构要素 279
6.3 大数据架构设计模式 284
6.4 本章小结 289
大数据技术开发 290
7.1 数据采集 290
7.2 数据存储 293
7.3 多维计算 296
7.4 功能服务 299
7.5 平台管理 301
7.6 应用域 307
7.7 本章小结 308
大数据工作流 309
8.1 数据源 310
8.2 数据处理 312
8.3 数据存储 324
8.4 数据计算 325
8.5 数据应用 376
8.6 数据质量管理 379
8.7 本章小结 392
企业大数据业务应用 393
9.1 大数据应用场景概述 393
9.2 用户画像 407
9.3 个性化营销 419
9.4 精准广告 427
9.5 征信 441
9.6 本章小结 450
企业大数据价值评估 451
10.1　资产价值 451
10.2　业务价值 455
10.3　本章小结 462
大数据的社会价值 463
11.1　民生价值 463
11.2　政务价值 465
11.3　产业价值 468
11.4　本章小结 470
大数据当前问题及挑战 471
12.1　数据挑战 471
12.2　安全挑战 472
12.3　价值挑战 474
12.4　认知挑战 475
12.5　技术挑战 478
12.6　人才挑战 480
12.7　本章小结 481
大数据未来趋势 482
13.1　价值资产化 482
13.2　产业生态化 487
13.3　主体社会化 490
13.4　应用智能化 491
13.5　本章小结 492
目　　录?Contents
前　言
第一部分　概述篇
企业级大数据技术体系概述 2
1.1　大数据系统产生背景及应用场景 2
1.1.1　产生背景 2
1.1.2　常见大数据应用场景 3
1.2　企业级大数据技术框架 5
1.2.1　数据收集层 6
1.2.2　数据存储层 7
1.2.3　资源管理与服务协调层 7
1.2.4　计算引擎层 8
1.2.5　数据分析层 9
1.2.6　数据可视化层 9
1.3　企业级大数据技术实现方案 9
1.3.1　Google大数据技术栈 10
1.3.2　Hadoop与Spark开源大数据技术栈 12
1.4　大数据架构：Lambda Architecture 15
1.5　Hadoop与Spark版本选择及安装部署 16
1.5.1　Hadoop与Spark版本选择 16
1.5.2　Hadoop与Spark安装部署 17
1.6　小结 18
1.7　本章问题 18
第二部分　数据收集篇
关系型数据的收集 20
2.1　Sqoop概述 20
2.1.1　设计动机 20
2.1.2　Sqoop基本思想及特点 21
2.2　Sqoop基本架构 21
2.2.1　Sqoop1基本架构 22
2.2.2　Sqoop2基本架构 23
2.2.3　Sqoop1与Sqoop2对比 24
2.3　Sqoop使用方式 25
2.3.1　Sqoop1使用方式 25
2.3.2　Sqoop2使用方式 28
2.4　数据增量收集CDC 31
2.4.1　CDC动机与应用场景 31
2.4.2　CDC开源实现Canal 32
2.4.3　多机房数据同步系统Otter 33
2.5　小结 35
2.6　本章问题 35
非关系型数据的收集 36
3.1　概述 36
3.1.1　Flume设计动机 36
3.1.2　Flume基本思想及特点 37
3.2　Flume NG基本架构 38
3.2.1　Flume NG基本架构 38
3.2.2　Flume NG高级组件 41
3.3　Flume NG数据流拓扑构建方法 42
3.3.1　如何构建数据流拓扑 42
3.3.2　数据流拓扑实例剖析 46
3.4　小结 50
3.5　本章问题 50
分布式消息队列Kafka 51
4.1　概述 51
4.1.1　Kafka设计动机 51
4.1.2　Kafka特点 53
4.2　Kafka设计架构 53
4.2.1　Kafka基本架构 54
4.2.2　Kafka各组件详解 54
4.2.3　Kafka关键技术点 58
4.3　Kafka程序设计 60
4.3.1　Producer程序设计 61
4.3.2　Consumer程序设计 63
4.3.3　开源Producer与Consumer实现 65
4.4　Kafka典型应用场景 65
4.5　小结 67
4.6　本章问题 67
第三部分　数据存储篇
数据序列化与文件存储格式 70
5.1　数据序列化的意义 70
5.2　数据序列化方案 72
5.2.1　序列化框架Thrift 72
5.2.2　序列化框架Protobuf 74
5.2.3　序列化框架Avro 76
5.2.4　序列化框架对比 78
5.3　文件存储格式剖析 79
5.3.1　行存储与列存储 79
5.3.2　行式存储格式 80
5.3.3　列式存储格式ORC、Parquet与CarbonData 82
5.4　小结 88
5.5　本章问题 89
分布式文件系统 90
6.1　背景 90
6.2　文件级别和块级别的分布式文件系统 91
6.2.1　文件级别的分布式系统 91
6.2.2　块级别的分布式系统 92
6.3　HDFS基本架构 93
6.4　HDFS关键技术 94
6.4.1　容错性设计 95
6.4.2　副本放置策略 95
6.4.3　异构存储介质 96
6.4.4　集中式缓存管理 97
6.5　HDFS访问方式 98
6.5.1　HDFS shell 98
6.5.2　HDFS API 100
6.5.3　数据收集组件 101
6.5.4　计算引擎 102
6.6　小结 102
6.7　本章问题 103
分布式结构化存储系统 104
7.1　背景 104
7.2　HBase数据模型 105
7.2.1　逻辑数据模型 105
7.2.2　物理数据存储 107
7.3　HBase基本架构 108
7.3.1　HBase基本架构 108
7.3.2　HBase内部原理 110
7.4　HBase访问方式 114
7.4.1　HBase shell 114
7.4.2　HBase API 116
7.4.3　数据收集组件 118
7.4.4　计算引擎 119
7.4.5　Apache Phoenix 119
7.5　HBase应用案例 120
7.5.1　社交关系数据存储 120
7.5.2　时间序列数据库OpenTSDB 122
7.6　分布式列式存储系统Kudu 125
7.6.1　Kudu基本特点 125
7.6.2　Kudu数据模型与架构 126
7.6.3　HBase与Kudu对比 126
7.7　小结 127
7.8　本章问题 127
第四部分　分布式协调与资源管理篇
分布式协调服务ZooKeeper 130
8.1　分布式协调服务的存在意义 130
8.1.1　leader选举 130
8.1.2　负载均衡 131
8.2　ZooKeeper数据模型 132
8.3　ZooKeeper基本架构 133
8.4　ZooKeeper程序设计 134
8.4.1　ZooKeeper API 135
8.4.2　Apache Curator 139
8.5　ZooKeeper应用案例 142
8.5.1　leader选举 142
8.5.2　分布式队列 143
8.5.3　负载均衡 143
8.6　小结 144
8.7　本章问题 145
资源管理与调度系统YARN 146
9.1　YARN产生背景 146
9.1.1　MRv1局限性 146
9.1.2　YARN设计动机 147
9.2　YARN设计思想 148
9.3　YARN的基本架构与原理 149
9.3.1　YARN基本架构 149
9.3.2　YARN高可用 152
9.3.3　YARN工作流程 153
9.4　YARN资源调度器 155
9.4.1　层级队列管理机制 155
9.4.2　多租户资源调度器产生背景 156
9.4.3　Capacity/Fair Scheduler 157
9.4.4　基于节点标签的调度 160
9.4.5　资源抢占
推荐序思者常新，厚积薄发
前言
浅谈企业级大数据平台的重要性
1.1 缺乏统一大数据平台的问题
1.1.1 资源浪费
1.1.2 数据孤岛
1.1.3 服务孤岛
1.1.4 安全存疑
1.1.5 缺乏可维护性和可扩展性
1.1.6 缺乏可复制性
1.2 构建统一大数据平台的优势
1.3 企业级大数据平台需要具备的基本能力
1.3.1 集群管理与监控
1.3.2 数据接入
1.3.3 数据存储与查询
1.3.4 数据计算
1.3.5 平台安全与管理
1.4 平台辅助工具
1.5 本章小结
企业级大数据平台技术栈介绍
2.1 HDFS
2.1.1 概述
2.1.2 RAID技术
2.1.3 核心设计目标
2.1.4 命名空间
2.1.5 数据模型
2.1.6 Namenode和Datanode
2.1.7 使用场景
2.2 Zookeeper
2.2.1 概述
2.2.2 核心特性
2.2.3 命名空间
2.2.4 数据模型
2.2.5 节点状态监听
2.2.6 原子消息广播协议
2.2.7 使用场景
2.3 HBase
2.3.1 概述
2.3.2 数据模型
2.3.3 Regions
2.3.4 HBase Master
2.3.5 Region Server
2.3.6 MemStore与HFile
2.3.7 使用场景
2.4 YARN
2.4.1 概述
2.4.2 资源模型和Container
2.4.3 ResourceManager
2.4.4 ApplicationMaster
2.4.5 NodeManager
2.4.6 单一集群架构
2.4.7 工作流程
2.4.8 使用场景
2.5 Spark
2.5.1 概述
2.5.2 数据模型
2.5.3 编程模型和作业调度
2.5.4 依赖
2.5.5 容错
2.5.6 集群模式
2.5.7 使用场景
2.6 本章小结
使用Ambari安装Hadoop集群
3.1 概述
3.2 集群设计
3.2.1 主控节点
3.2.2 存储与计算节点
3.2.3 安全认证与管理节点
3.2.4 协同管理与其他节点
3.3 Ambari的安装、配置与启动
3.3.1 安装前的准备
3.3.2 安装Ambari-Server
3.3.3 Ambari-Server目录结构
3.3.4 配置Ambari-Server
3.3.5 启动Ambari-Server
3.4 新建集群
3.4.1 设置集群名称并配置HDP安装包
3.4.2 配置集群
3.5 Ambari控制台功能简介
3.5.1 集群服务管理
3.5.2 集群服务配置
3.5.3 辅助工具
3.6 本章小结
构建企业级平台安全方案
4.1 浅谈企业级大数据平台面临的安全隐患
4.1.1 缺乏统一的访问控制机制
4.1.2 缺乏统一的资源授权策略
4.1.3 缺乏Hadoop服务安全保障
4.2 初级安全方案
4.2.1 访问控制
4.2.2 数据授权与管理
4.3 本章小结
Hadoop服务安全方案
5.1 Kerberos协议简介
5.2 使用FreeIPA安装Kerberos和LDAP
5.2.1 安装FreeIPA
5.2.2 IPA-Server管理控制台功能介绍
5.2.3 IPA CLI功能介绍
5.3 开启Ambari的Kerberos安全选项
5.3.1 集成前的准备
5.3.2 集成IPA
5.3.3 测试Kerberos认证
5.4 本章小结
单点登录与用户管理
6.1 集成单点登录
6.1.1 CAS简介
6.1.2 安装CAS-Server
6.1.3 集成Knox网关与CAS-Server
6.1.4 集成Ranger与CAS-Server
6.1.5 集成Ambari与CAS-Server
6.2 实现统一的用户管理系统
6.3 使用Java程序调用脚本
6.4 创建Ranger扩展用户
6.5 本章小结
搭建平台管理端RESTful服务
7.1 搭建RESTful服务框架
7.2 用户查询
7.2.1 引入LDAP模块
7.2.2 配置LDAP
7.2.3 实现持久层
7.2.4 实现服务层
7.2.5 实现RESTful服务
7.2.6 整合用户管理
7.3 RESTful服务安全认证
7.3.1 用户登录服务
7.3.2 使用JWT认证
7.3.3 创建用户登录RESTful服务
7.3.4 认证过滤器
7.3.5 测试服务安全认证
7.4 数据仓库数据查询
7.4.1 创建JDBC连接
7.4.2 Kerberos登录
7.4.3 使用JDBC协议查询
7.4.4 实现服务层与RESTful服务
7.4.5 测试查询
7.5 数据仓库元数据查询
7.5.1 使用query服务查询数仓元数据
7.5.2 引入JdbcTemplate模块
7.5.3 增加Hive元数据库配置
7.5.4 实现元数据持久层
7.5.5 实现元数据服务层与RESTful服务
7.5.6 测试元数据查询
7.6 本章小结
Spark任务与调度服务
8.1 提交Spark任务的3种方式
8.1.1 使用Spark-Submit脚本提交
8.1.2 使用Spark Client提交
8.1.3 使用YARN RESTful API提交
8.2 查询Spark日志
8.3 任务调度
8.3.1 引入Quartz模块
8.3.2 增加Quartz配置
8.3.3 编写调度任务
8.3.4 改进空间
8.4 本章小结
附录A Hadoop简史
附录B Hadoop生态其他常用组件一览
附录C 常用组件配置说明

微信读书

从大数据新人到数据架构师必备三本书

简介

版权

从大数据新人到数据架构师必备三本书