本书围绕Spark生态圈相关系统介绍了实时流处理架构Spark。全书共9章,其中第1章主要带大家认识了Spark框架的底层实现语言——Scala。第2章主要讲解了Spark集群环境的搭建。第3-8章主要介绍了弹性分布式数据集RDD、结构化数据文件处理Spark SQL、分布式数据库HBase、分布式订阅消息系统Kafka、实时计算框架Spark Streaming以及机器学习算法库MLib。第9章是一个综合项目,主要通过实时交易数据数据,其目的是教会大家如何利用Spark构建大数据架构并进行开发,同时加深Spark技术的理解。
本书可作为高等院校本、专科计算机相关专业、信息管理等相关专业的大数据课程教材,也可供相关技术人员参考,是一本适合广大计算机编程爱好者的优秀读物。
1、本书以spark2.3.2版本为基础进行编写,版本很新。
2、本书不仅介绍了spark基础使用方法,而且还深入浅出讲解了spark的编程模型,运行机制,存储原理和运行架构等内容。
3、本书涉及的技术都结合了代码进行解读并实现原理,通过实例,读者可以更加深入理解spark运行机制。