本书围绕Hadoop生态圈相关系统介绍大数据处理架构Hadoop。全书共11章节,其中,第1-2章主要带领大家认识Hadoop以及学会搭建Hadoop集群。第3-5章讲解了分布式文件系统HDFS、分布式计算框架MapReduce以及分布式协调服务。第6章讲解的是Hadoop2新特性,包含YARN和高可用特性。第7-10章主要讲解Hadoop生态圈的相关辅助系统,包括Hive、Flume、Azkaban和Sqoop。第11章是一个综合项目——网站流量日志数据分析系统,其目的是教会大家如何利用Hadoop生态圈技术构建大数据系统架构并进行开发,同时加深Hadoop技术的理解。
本书可作为高等院校本、专科计算机相关专业、信息管理等相关专业的大数据课程教材,也可供相关技术人员参考,是一本适合广大计算机编程爱好者的优秀读物。
1、理论+实践相结合,全方位讲解Hadoop
2、大量图解知识,讲解通俗易懂
3、真实大型综合项目,实战性强