欢迎来到传智教育旗下图书库

数据清洗(第2版)

黑马程序员/编著
定价:¥58.00

出版社:清华大学出版社

ISBN:978-7-302-67029-2

图书种类:高校教材

出版日期:2024-08

所属学科:大数据

页数:307

咨询客服 查看配套资源

关注获取新书发布信息

内容简介

本书以Kettle9.2为基础,全面介绍使用Kettle实现ETL的相关操作。全书共8章,分别讲解数据清洗和ETL的概念,Kettle的安装和使用,如何使用Kettle实现数据抽取、数据清洗、数据转换和数据加载,并在最后综合运用上述知识,构建一个电影租赁商店数据仓库,以使读者加深对Kettle和ETL的理解与掌握。

本书附有配套视频、教学PPT、教学设计、测试题等资源,同时,为了帮助初学者更好地学习本书中的内容,还提供了在线答疑,欢迎读者关注。

适合群体

本书可以作为高等教育本、专科院校数据科学与大数据技术及相关专业的教材,并适合大数据开发初学者、ETL工程师以及数仓开发的从业者阅读。

图书特色

本书在编写的过程中,结合党的二十大精神进教材、进课堂、进头脑的要求,将知识教育与思想政治教育相结合,通过案例加深学生对知识的认识与理解,注重培养学生的创新精神、实践能力和社会责任感。案例设计从现实需求出发,激发学生的学习兴趣和动手思考的能力,充分发挥学生的主动性和积极性,增强学习信心和学习欲望。在知识和案例中融入了素质教育的相关内容,引导学生树立正确的世界观、人生观和价值观,进一步提升学生的职业素养,落实德才兼备的高素质卓越工程师和高技能人才的培养要求。此外。编者依据书中的内容提供了线上学习资源,体现现代信息技术与教育教学的深度融合,进一步推动教育数字化发展。

配套资源
图书目录
第1章 数据清洗概述
    1.1 数据清洗的背景
        1.1.1 数据质量概述
        1.1.2 数据质量的评价指标
        1.1.3 数据质量问题的分类
    1.2 数据清洗的定义
    1.3 数据清洗基本流程
    1.4 数据清洗策略
    1.5 数据清洗常用的方法
    1.6 数据清洗的挑战
    1.7 本章小结
    1.8 课后习题
第2章 初识ETL
    2.1 ETL的定义
    2.2 ETL的体系结构
    2.3 ETL关键步骤
        2.3.1 抽取
        2.3.2 转换
        2.3.3 加载
    2.4 常见的ETL工具
    2.5 本章小结
    2.6 课后习题
第3章 Kettle
    3.1 初识Kettle
        3.1.1 Kettle简介
        3.1.2 Kettle的特点
    3.2 Kettle的安装与启动
    3.3 Kettle的转换和作业
        3.3.1 转换
        3.3.2 作业
    3.4 Kettle的基本操作
        3.4.1 转换管理
        3.4.2 作业管理
        3.4.3 数据库连接
    3.5 本章小结
    3.6 课后习题
第4章 数据抽取
    4.1 从文件中抽取数据
        4.1.1 从CSV文件中抽取数据
        4.1.2 从TSV文件中抽取数据
        4.1.3 从JSON文件中抽取数据
        4.1.4 从XML文件中抽取数据
        4.1.5 从HDFS中抽取数据
    4.2 从数据库中抽取数据
        4.2.1 从关系型数据库中抽取数据
        4.2.2 从非关系型数据库中抽取数据
    4.3 从Hive中抽取数据
    4.4 从HTML页面中抽取数据
    4.5 本章小结
    4.6 课后习题
第5章 数据清洗
    5.1 重复值处理
    5.2 缺失值处理
        5.2.1 缺失值处理策略
        5.2.2 删除缺失值
        5.2.3 填补缺失值
    5.3 异常值处理
        5.3.1 删除异常值
        5.3.2 替换异常值
    5.4 本章小结
    5.5 课后习题
第6章 数据转换
    6.1 数据规范化处理
    6.2 多数据源合并
    6.3 数据粒度转换
    6.4 数据的商务规则计算
    6.5 本章小结
    6.6 课后习题
第7章 数据加载
    7.1 将数据加载到文本文件
    7.2 将数据加载到数据库
        7.2.1 将数据加载到关系型数据库
        7.2.2 将数据加载到非关系型数据库
    7.3 将数据加载到Hive
    7.4 本章小结
    7.5 课后习题
第8章 综合案例——构建电影租赁商店数据仓库
    8.1 案例概述
        8.1.1 案例背景介绍
        8.1.2 数据库简介
        8.1.3 数据仓库简介
    8.2 环境准备
    8.3 案例实现
        8.3.1 向维度表dim_date加载数据
        8.3.2 向维度表dim_time加载数据
        8.3.3 向维度表dim_staff加载数据
        8.3.4 向维度表dim_customer加载数据
        8.3.5 向维度表dim_store加载数据
        8.3.6 向维度表dim_actor加载数据
        8.3.7 向维度表dim_film加载数据
        8.3.8 向桥接表dim_film_actor_bridge加载数据
        8.3.9 向事实表fact_rental加载数据
        8.3.10 定期向数据仓库sakila_dwh加载数据
    8.4 本章小结
展开全部内容

热销图书推荐

ECharts数据可视化

人民邮电出版社

定价:¥59.80 咨询客服

Python快速编程入门(第3版)

人民邮电出版社

定价:¥59.80 咨询客服

Bootstrap响应式Web开发(第2版)

人民邮电出版社

定价:¥59.80 咨询客服

Spring Cloud微服务架构开发(第2版)

人民邮电出版社

定价:¥59.80 咨询客服