Spark项目实战 - 传智教育图书库

内容简介

本书运用Spark计算框架的核心组件对电商数据进行分析，以项目形式呈现，其内容涵盖环境搭建、数据分析、数据持久化和数据可视化, 涉及JavaEE、ECharts、Hadoop、HBase、Spark、Kafka和Zookeeper等技术点的综合应用。针对项目开发过程的每个环节都进行了深入讲解，使读者由浅入深的了解每个环节知识内容。

适合群体

本书适合拥有Spark基础的读者阅读，也可以作为高等院校相关课程的教学参考书。读者不仅能够通过项目实战巩固基础知识的学习效果，还能学习商业智能系统的开发过程。

图书特色

本书使用目前较为热门的电商数据与Spark技术作为项目的基础，其内容涵盖数据持久化、数据分析与数据可视化多个技术点。旨在令读者具备使用Spark核心组件的分析能力，并能够构建强大的解决方案来执行大数据分析，同时毫不费力地从大数据分析结果中获得敏锐的洞察力。本书涉及Java语言、Hadoop、HBase、Spark、Kafka和Zookeeper的综合运用，同时实现了大数据分析的可视化结果。本书适合Spark的初学者阅读，也可以作为高等院校相关课程的教学参考书。读者不仅能够通过项目实战巩固基础知识的学习效果，还能学习商业智能系统的开发过程。

特色1： 完整呈现Spark项目开发整体流程

特色2：代码内容详细讲解，使读者更容易理解

特色3：通过数据可视化展示分析结果

特色4：涵盖Spark SQL、Spark Streaming和Spark Core

配套资源

进入高校教辅平台查看资源

图书目录

第1章	项目概述
1.1	项目需求和目标
1.2	预备知识
1.3	项目架构设计及技术选取
1.4	开发环境和开发工具介绍
1.5	项目开发流程
1.6	硬件要求
1.7	本章小结

第2章 搭建大数据集群环境
2.1	安装准备
	2.1.1	认识Linux操作系统
	2.1.2	创建虚拟机
	2.1.3	启动虚拟机并安装Linux操作系统
	2.1.4	克隆虚拟机
	2.1.5	配置Linux操作系统网络及主机名
	2.1.6	SSH配置
	2.1.7	配置时间同步
2.2	安装JDK
2.3	ZooKeeper集群部署
	2.3.1	ZooKeeper集群的安装与配置
	2.3.2	ZooKeeper集群的启动与关闭
2.4	Hadoop集群部署
	2.4.1	Hadoop高可用集群规划
	2.4.2	安装Hadoop
	2.4.3	Hadoop高可用集群配置
	2.4.4	启动Hadoop高可用集群
2.5	Spark集群部署
	2.5.1	Spark集群部署模式
	2.5.2	Spark集群安装配置
	2.5.3	Spark集群测试
2.6	HBase集群部署
	3.6.1	HBase集群规划
	3.6.2	HBase集群安装配置
	3.6.3	启动HBase集群
2.7	Kafka集群部署
	2.7.1	Kafka集群的安装与配置
	2.7.2	启动Kafka集群
2.8	本章小结

第3章 热门品类Top10分析
3.1	数据集分析
3.2	实现思路分析
3.3	实现热门品类Top10
	3.3.1	创建项目
	3.3.2	创建Spark连接并读取数据集
	3.3.3	获取业务数据
	3.3.4	统计品类的行为类型
	3.3.5	过滤品类的行为类型
	3.3.6	合并相同品类的行为类型
	3.3.7	根据品类的行为类型进行排序
	3.3.8	数据持久化
3.4	运行程序
3.5	本章小结

第4章 各区域热门商品Top3分析
4.1	实现思路分析
4.2	实现各区域热门商品Top3
	4.2.1	创建Spark连接并读取数据集
	4.2.2	获取业务数据
	4.2.3	过滤商品的行为类型
	4.2.4	转换数据格式
	4.2.5	统计每个区域中的不同商品
	4.2.6	根据区域进行分组
	4.2.7	根据区域内商品的查看次数进行排序
	4.2.8	数据持久化
4.3	运行程序
4.4	本章小结

第5章 网站转化率统计
5.1	数据集分析
5.2	实现思路分析
5.3	实现网站转化率统计
	5.3.1 生成用户浏览网页数据
	5.3.2 修改pom.xml文件
	5.3.3 创建Spark连接并读取数据集
	5.3.4 统计每个页面访问次数
	5.3.5 获取每个用户浏览网页的顺序
	5.3.6 合并同一用户浏览的网页
	5.3.7 统计每个单跳的次数
	5.3.8 计算页面单跳转化率
	5.3.9 数据持久化
5.4	运行程序
5.5	本章小结

第6章 广告点击流实时统计
6.1	数据集分析
6.2	实现思路分析
6.3	数据库设计
6.4	实现广告点击流实时统计
	6.4.1	修改pom.xml文件
	6.4.2	生产用户广告点击流数据
	6.4.3	创建SparkStreaming连接
	6.4.4	读取用户广告点击流数据
	6.4.5	获取业务数据
	6.4.6	读取黑名单用户数据
	6.4.7	过滤黑名单用户
	6.4.8	统计每个城市不同广告的点击次数
	6.4.9	添加黑名单用户
	6.4.10	数据持久化
6.5	运行程序
6.6	本章小结

第7章 数据可视化
7.1	系统概述
	7.1.1	技术选取
	7.1.2	系统架构
7.2	数据表设计与实现
	7.2.1	数据表介绍
	7.2.2	Phoenix集成HBase
	7.2.3	建立Phoenix与HBase表映射
7.3	创建Spring Boot项目
7.4	实现热门品类Top10数据可视化
	7.4.1	创建实体类Top10Entity
	7.4.2	创建数据库访问接口Top10Dao
	7.4.3	创建控制器类Top10Controller
	7.4.4	创建HTML文件top10.html
	7.4.5	运行项目实现热门品类Top10数据可视化
7.5	实现各区域热门商品Top3数据可视化
	7.5.1	创建实体类Top3Entity
	7.5.2	创建数据库访问接口Top3Dao
	7.5.3	创建控制器类Top3Controller
	7.5.4	创建HTML文件top3.html
	7.5.5	运行项目实现各区域热门商品Top3数据可视化
7.6	实现页面单跳转化率数据可视化
	7.6.1	创建实体类ConversionEntity
	7.6.2	创建数据库访问接口ConversionDao
	7.6.3	创建控制器类ConversionController
	7.6.4	创建HTML文件conversion.html
	7.6.5	运行项目实现页面单跳转化率数据可视化
7.7	实现广告点击流实时统计可视化
	7.7.1	创建实体类AdsEntity
	7.7.2	创建数据库访问接口AdsDao
	7.7.3	创建控制器类AdsController
	7.7.4	创建HTML文件ads.html
	7.7.5	运行项目实现广告点击流实时统计可视化
7.8	本章小结

展开全部内容