书籍封面

从大数据新人到数据架构师必备三本书

对于很多企业而言,大数据的重要性不言而喻,但是如何构建、实施和应用大数据系统却是一个复杂工程。本书让读者认识到大数据不仅仅是数据、技术、架构、应用,更是结合了商业模式、战略定位、信息安全、单位协同、组织保障、实施选型的完整体系。  本书内容从大数据的规划定位、组织实施和价值提升三个维度展开,兼顾从整体性、全局性、安全性、价值性、技术性、体系性等方面的考虑。  第一部分:企业大数据战略规划  主要从宏观的角度介绍大数据的定位、组织保障、解决方案选择和自主实施思路,目的是从全局角度引导建立大数据工作的整体思维。  第二部分:企业大数据落地实施  主要从执行层面介绍了大数据落地相关的技术、架构、开发、大数据工作流、应用和价值评估,直接以落地视角解读大数据工作中每个环节涉及到的流程、知识和方法,这也是本书的核心章节。  第三部分:大数据价值、变革和挑战  主要涉及大数据的社会价值、当前问题和挑战以及大数据的未来趋势,这是对现有大数据工作的延展以及未来趋势的探索。  这是一部系统、深度讲解大数据技术栈的著作,从数据收集、数据存储、资源管理与服务协调、计算引擎、数据分析、数据可视化6个层次讲解了整个大数据技术体系中所有核心技术的原理、架构与实践。不仅能让读者从宏观上全面认识整个大数据系统,而且还能让读者从微观上深入理解各种大数据技术的细节。  本书将以数据在大数据系统中的生命周期为线索,一共17章,分为七个部分:  第一部分(第1章):概述  主要介绍企业级大数据技术框架、技术实现方案和架构,包括Google的大数据技术栈和以Hadoop和Spark为代表的开源技术栈。  第二部分(第2-4章):数据收集  讲解大数据收集相关技术,主要涉及关系型数据收集工具Sqoop与Canel,非关系型数据收集系统Flume以及分布式消息队列Kafka。  第三部分(第5-7章):数据存储  讲解大数据存储相关技术,涉及数据存储格式,分布式文件系统以及分布式数据库三部分,包括Thrift、Protobuf、Avro、HDFS和HBase等。  第四部分(第8-9章):分布式协调与资源管理  讲解资源管理和服务协调相关技术,涉及资源管理和调度系统YARN以及资源协调系统Zookeeper。  第五部分(第10-13章):计算引擎  讲解计算引擎相关技术,涉及批处理、交互式处理以及流式实时处理三类引擎,包括MapReduce、Spark、Impala/Presto、Storm等常用技术。  第六部分(第14-16章):数据分析  讲解数据分析相关技术,涉及基于数据分析语言HQL与SQL,大数据统一编程模型及机器学习库等。  第七部分(第17章):应用案例  讲解了3个企业级大数据综合应用案例,包括Lambda架构、基于大数据技术的数据仓库、用户行为实时统计系统。  这是一部教你如何从0到1架构与实现一个企业级大数据平台的著作,是作者在大数据和系统架构领域工作超过20000小时的经验总结。  作者从横向视角出发,手把手教你如何拉通Hadoop体系技术栈,以此搭建一个真实可用、安全可靠的大数据平台。通过阅读本书,大家一定能找到灵感和思路来应对实际工作中面对的问题。  本书在逻辑上分为三大部分:  背景篇(第1~2章):简单阐述了企业级大数据平台的重要性,并指出了作为一个企业级大数据平台应当具备的能力。接着抛砖引玉介绍了通过Hadoop生态体系去构建一个企业级大数据平台可以使用的技术栈的核心概念,如HDFS、HBase、Spark等。  方法篇(第3~6章):详细讲解了集群服务、安全网关、服务授权、Kerberos认证、单点登录和集群用户整合等各个方面的背景知识与配置整合步骤。  扩展篇(第7~8章):介绍了如何用编写Restful服务的形式进一步扩展平台功能的一些思路,以便提高平台的易用性和可用性。
微信读书推荐值
待评分
推荐
一般
不行
热门划线