出版社:清华大学出版社
ISBN:暂无
图书种类:高校教材
出版日期:2024-10(预估)
所属学科:大数据
页数:224(预估)
关注获取新书发布信息
本书以Spark 3.x和Python 3.x为主线,全面介绍了Spark及其生态体系中常用大数据项目的安装和使用。全书共8章,分别讲解了Spark基础知识、Spark部署、Spark RDD、Spark SQL、Spark Streaming、Kafka、Structured Streaming和Spark MLlib,并在最后完整开发了一个在线教育学生学习情况分析系统,帮助大家巩固前面所学的内容。
本书附有配套视频、教学PPT、教学设计、测试题等资源,同时,为了帮助初学者更好地学习本书中的内容,还提供了在线答疑,欢迎读者关注。
本书可以作为高等教育本、专科院校数据科学与大数据技术及相关专业的教材,并适合大数据开发初学者、大数据分析与挖掘的从业者阅读。
本书在编写的过程中,结合党的二十大精神进教材、进课堂、进头脑的要求,将知识教育与思想政治教育相结合,通过案例加深学生对知识的认识与理解,注重培养学生的创新精神、实践能力和社会责任感。案例设计从现实需求出发,激发学生的学习兴趣和动手思考的能力,充分发挥学生的主动性和积极性,增强学习信心和学习欲望。在知识和案例中融入了素质教育的相关内容,引导学生树立正确的世界观、人生观和价值观,进一步提升学生的职业素养,落实德才兼备的高素质卓越工程师和高技能人才的培养要求。此外。编者依据书中的内容提供了线上学习资源,体现现代信息技术与教育教学的深度融合,进一步推动教育数字化发展。
第1章 Spark基础 1.1 初识Spark 1.1.1 Spark概述 1.1.2 Spark的特点 1.1.3 Spark应用场景 1.1.4 Spark与MapReduce的区别 1.2 Spark基本架构及运行流程 1.2.1 基本概念 1.2.2 Spark基本架构 1.2.3 Spark运行流程 1.3 Spark的部署模式 1.4 部署Spark 1.4.1 基于Local模式部署Spark 1.4.2 基于Standalone模式部署Spark 1.4.3 基于High Availability模式部署Spark 1.4.4 基于Spark on YARN模式部署Spark 1.5 Spark初体验 1.6 PySpark的使用 1.7 PyCharm开发Spark程序 1.8 本章小结 1.9 课后习题 第2章 Spark RDD弹性分布式数据集 2.1 RDD简介 2.2 RDD的创建 2.2.1 基于文件创建RDD 2.2.2 基于数据集合创建RDD 2.3 RDD的处理过程 2.3.1 转换算子 2.3.2 行动算子 2.4 RDD的分区 2.5 RDD的依赖关系 2.6 RDD机制 2.6.1 持久化机制 2.6.2 容错机制 2.7 Spark的任务调度 2.7.1 DAG的概念 2.7.2 RDD在Spark中的运行流程 2.8 本章小结 2.9 课后习题 第3章 Spark SQL结构化数据处理模块 3.1 Spark SQL的基础知识 3.1.1 Spark SQL的简介 3.1.2 Spark SQL架构 3.2 DataFrame的基础知识 3.2.1 DataFrame简介 3.2.2 DataFrame的创建 3.2.3 DataFrame的常用操作 3.2.4 DataFrame的函数操作 3.3 RDD转换为DataFrame 3.3.1 反射机制推断Schema 3.3.2 编程方式定义Schema 3.4 Spark SQL操作数据源 3.4.1 Spark SQL操作MySQL 3.4.2 Spark SQL操作Hive 3.5 本章小结 3.6 课后习题 第4章 Spark Streaming实时计算框架 4.1 实时计算概述 4.2 Spark Streaming的概述 4.2.1 Spark Streaming简介 4.2.2 Spark Streaming工作原理 4.3 Spark Streaming的DStream 4.4 Spark Streaming的编程模型 4.5 Spark Streaming的API操作 4.5.1 输入操作 4.5.2 转换操作 4.5.3 输出操作 4.5.4 窗口操作 4.5.5 案例¬——电商网站实时热门品类统计 4.6 本章小结 4.7 课后习题 第5章 Kafka分布式发布订阅消息系统 5.1 消息队列简介 5.2 Kafka简介 5.3 Kafka工作原理 5.3.1 Kafka的基本架构 5.3.2 Kafka工作流程 5.4 搭建Kafka集群 5.5 Kafka的基本操作 5.5.1 Kafka的Shell操作 5.5.2 Kafka的Python API操作 5.6 案例——实时单词计数 5.7 本章小结 5.8 课后习题 第6章 Structured Streaming流计算引擎 6.1 Spark Streaming的不足 6.2 Structured Streaming概述 6.2.1 Structured Streaming简介 6.2.2 Structured Streaming编程模型 6.3 Structured Streaming的API操作 6.3.1 输入操作 6.3.2 转换操作 6.3.3 输出操作 6.4 时间和窗口操作 6.4.1 时间的分类 6.4.2 窗口操作 6.5 案例——物联网设备数据分析 6.5.1 准备数据 6.5.2 分析数据 6.6 本章小结 6.7 课后习题 第7章 Spark MLlib机器学习库 7.1 初识机器学习 7.1.1 什么是机器学习 7.1.2 机器学习的应用 7.2 Spark MLlib概述 7.2.1 Spark MLlib简介 7.2.2 Spark MLlib工作流程 7.3 数据类型 7.4 Spark MLlib基本统计 7.4.1 摘要统计 7.4.2 相关统计 7.4.3 分层抽样 7.5 分类 7.5.1 线性支持向量机 7.5.2 逻辑回归 7.6 案例——构建电影推荐系统 7.6.1 案例分析 7.6.2 案例实现 7.7 本章小结 7.8 课后习题 第8章 综合案例——在线教育学生学习情况分析系统 8.1 系统概述 8.1.1 系统背景介绍 8.1.2 系统流程分析 8.2 Redis的安装和启动 8.3 模块开发——构建项目结构 8.4 模块开发——在线教育数据的生成 8.4.1 模拟生成数据 8.4.2 向Kafka发送数据 8.5 模块开发——实时分析学生答题情况 8.6 模块开发——实时推荐题目 8.7 模块开发——离线分析学生答题情况 8.8 模块开发——数据可视化 8.8.1 安装、启动与配置FineBI 8.8.2 实现数据可视化 8.9 本章小结