Spark大数据分析与实战 - 传智教育图书库

内容简介

本书围绕Spark生态圈相关系统介绍了实时流处理架构Spark。全书共9章，其中第1章主要带大家认识了Spark框架的底层实现语言——Scala。第2章主要讲解了Spark集群环境的搭建。第3-8章主要介绍了弹性分布式数据集RDD、结构化数据文件处理Spark SQL、分布式数据库HBase、分布式订阅消息系统Kafka、实时计算框架Spark Streaming以及机器学习算法库MLib。第9章是一个综合项目，主要通过实时交易数据数据，其目的是教会大家如何利用Spark构建大数据架构并进行开发，同时加深Spark技术的理解。

适合群体

本书可作为高等院校本、专科计算机相关专业、信息管理等相关专业的大数据课程教材，也可供相关技术人员参考，是一本适合广大计算机编程爱好者的优秀读物。

图书特色

1、本书以spark2.3.2版本为基础进行编写，版本很新。

2、本书不仅介绍了spark基础使用方法，而且还深入浅出讲解了spark的编程模型，运行机制，存储原理和运行架构等内容。

3、本书涉及的技术都结合了代码进行解读并实现原理，通过实例，读者可以更加深入理解spark运行机制。

配套资源

进入高校教辅平台查看资源

图书目录

第1章 Scala语言基础
1.1	初始Scala
1.1.1	Scala概述
1.1.2	Scala的下载安装
1.1.3	在IDEA开发工具中下载安装Scala插件
1.1.4	开发第一个Scala程序
1.2	Scala的基础语法
1.2.1	声明值和变量
1.2.2	数据类型
1.2.3	算术和操作符重载
1.2.4	控制结构语句
1.2.5	方法和函数
1.3	Scala的数据结构
1.3.1	数组
1.3.2	元组
1.3.3	集合
1.4	Scala面向对象的特性
1.4.1	类与对象
1.4.2	继承
1.4.3	单例对象和伴生对象
1.4.4	特质
1.5	Scala的模式匹配与样例类
1.5.1	模式匹配
1.5.2	样例类
1.6	本章小结
1.7	课后习题

第2章 Spark基础
2.1	初识Spark
2.1.1	Spark概述
2.1.2	Spark的特点
2.1.3	Spark应用场景
2.1.4	Spark与Hadoop对比
2.2	搭建Spark系统环境
2.2.1	环境准备
2.2.2	Spark的部署方式
2.2.3	Spark集群安装部署
2.2.4	Spark HA集群部署
2.3	Spark运行架构与原理
2.3.1	基本概念
2.3.2	Spark集群运行架构
2.3.3	Spark运行基本流程
2.4	体验第一个Spark程序
2.5	启动Spark Shell
2.5.1	运行Spark Shell命令
2.5.2	运行Spark-Shell读取HDFS文件
2.6	IDEA开发WordCount程序
2.6.1	以本地模式执行Spark程序
2.6.2	集群模式执行Spark程序
2.7	本章小结
2.8 	课后习题

第3章 Spark RDD弹性分布式数据集
3.1	RDD简介
3.2	RDD的创建方式
3.2.1	从文件系统加载数据创建RDD
3.2.2	通过并行集合创建RDD
3.3	RDD的处理过程
3.3.1	转换算子
3.3.2	行动算子
3.3.3	编写WordCount词频统计案例
3.4	RDD的分区
3.5	RDD的依赖关系
3.6	RDD机制
3.6.1	持久化机制
3.6.2	容错机制
3.7	Spark的任务调度
3.7.1	DAG的概念
3.7.2	RDD在Spark中的运行流程
3.8	本章小结
3.9	课后习题

第4章 Spark SQL结构化数据文件处理
4.1	Spark SQL的基础知识
4.1.1	Spark SQL的简介
4.1.2	Spark SQL架构
4.2	DataFrame的基础知识
4.2.1	DataFrame简介
4.2.2	DataFrame的创建
4.2.3	DataFrame的常用操作
4.3	Dataset的基础知识
4.3.1	Dataset简介
4.3.2	Dataset对象的创建
4.4	RDD转换为DataFrame
4.4.1	反射机制推断Schema
4.4.2	编程方式定义Schema
4.5	Spark SQL操作数据源
4.5.1	操作MySQL
4.5.2	操作Hive数据集
4.6	本章小结
4.7	课后习题

第5章 HBase分布式数据库
5.1	HBase的基础知识
5.1.1	HBase的简介
5.1.2	HBase的数据模型
5.2	HBase的集群部署
5.3	HBase的基本操作
5.3.1	HBase的Shell操作
5.3.2	HBase的Java API操作
5.4	深入学习HBase原理
5.4.1	HBase架构
5.4.2	物理存储
5.4.3	寻址机制
5.4.4	HBase读写数据流程
5.5	Hbase和Hive的整合
5.6	本章小结
5.7	课后习题

第6章 Kafka分布式发布订阅消息系统
6.1	Kafka的基础知识
6.1.1	消息传递模式简介
6.1.2	Kafka简介
6.2	Kafka工作原理
6.2.1	Kafka核心组件介绍
6.2.2	Kafka工作流程分析
6.3	Kafka集群部署与测试
6.3.1	安装Kafka
6.3.2	启动Kafka服务
6.4	Kafka生产者和消费者实例
6.4.1	基于命令行方式使用Kafka
6.4.2	基于Java API方式使用Kafka
6.5	Kafka Streams
6.5.1	Kafka Streams概述
6.5.2	Kafka Streams开发单词计数应用
6.6	本章小结
6.7	课后习题

第7章 Spark Streaming实时计算框架
7.1	实时计算的基础知识
7.1.1	什么是实时计算
7.1.2	常用的实时计算框架
7.2	Spark Streaming的基础知识
7.2.1	Spark Streaming简介
7.2.2	Spark Streaming工作原理
7.3	Spark的DStream
7.3.1	DStream简介
7.3.2	DStream编程模型
7.3.3	DStream转换操作
7.3.4	DStream窗口操作
7.3.5	DStream输出操作
7.3.6	DStream实例——实现网站热词排序
7.4	Spark Streaming整合Kafka实战
7.4.1	KafkaUtils.createDstream方式
7.4.2	KafkaUtils.createDirectStream方式
7.5	本章小结
7.6	课后习题

第8章 Spark MLlib 机器学习算法库
8.1	初识机器学习
8.1.1	什么是机器学习
8.1.2	机器学习的应用
8.2	Spark机器学习库MLlib的概述
8.2.1	MLlib的简介
8.2.2	Spark机器学习工作流程
8.3	数据类型
8.3.1	本地向量
8.3.2	标注点
8.3.3	本地矩阵
8.4	Spark MLlib基本统计
8.4.1	摘要统计
8.4.2	相关统计
8.4.3	分层抽象
8.5	分类
8.5.1	线性支持向量机
8.5.2	逻辑回归
8.6	案例——构建推荐系统
8.6.1	推荐模型分类
8.6.2	利用MLlib实现电影推荐
8.7	本章小结
8.8	课后习题

第9章 综合案例——Spark实时交易数据统计
9.1	系统概述
9.1.1	系统背景介绍
9.1.2	系统架构设计
9.1.3	系统预览
9.2	Redis数据库
9.2.1	Redis介绍
9.2.2	Redis部署与启动
9.2.3	Redis操作及命令
9.3	模块开发——构建工程结构
9.4	模块开发——构建订单系统
9.4.1	模拟订单数据
9.4.2	向Kafka集群发送订单数据
9.5	模块开发——分析订单数据
9.6	模块开发——数据展示
9.6.1	搭建Web开发环境
9.6.2	实现数据展示功能
9.6.3	可视化平台展示
9.7	本章小结

展开全部内容