数据清洗是大数据预处理的关键环节。面对错综复杂的杂乱数据,传统的清洗脏数据工作单调且异常辛苦,如果能利用正确的工具和方法,可以让数据清洗工作变得事半功倍。全书共8章,其中第1章主要是带领大家简单认识数据清洗;第2章主要讲解ETL技术相关的知识;第3章讲解数据清洗工具Kettle的相关知识;第4章主要讲解数据清洗的第一步——数据抽取相关知识;第5章主要讲解数据的清洗与检验相关的知识;第6章主要讲解数据转换相关知识;第7章主要讲解数据加载相关的知识;第8章是利用前面章节学的知识构建一个DVD租赁商店数据仓库,目的是实现定期从源数据库sakila中抽取增量数据,转换成符合DVD租赁业务的数据,最后加载到DVD租赁商店数据仓库中,便于后续在线DVD租赁商店的决策者对数据进行分析得出商业决策。
本书讲解了数据清洗的理论知识和实际应用,可作为高等院校本、专科计算机相关专业,信息管理等相关专业的大数据课程教材,也可供相关技术人员参考,是一本适合广大计算机编程爱好者的优秀读物。
当下大多数数据清洗书籍都围绕着理论和概念展开,很少谈及实际工作中的实际数据清洗操作,更鲜有手把手教读者做数据清洗工作的内容,让很多读者在学完后似懂非懂,没有多少切实可行的知识收获。
本书围绕数据清洗相关工作,编写大量使用Kettle工具清洗脏数据的案例,全方位讲述了脏数据的清洗方法。
从清洗脏数据方案的策划,到获得干净数据,你想要的数据清洗经验,本书里都有!
学完这本书,即可直接上手数据清洗,实现知识与实战的无障碍衔接,助你快速理顺数据清洗方法,开展数据清洗工作。
特色1:零基础入门级讲解
不管你会不会编程,都可以通过这本书学会数据清洗,手把手教学,保证学会。
特色2:学习目标清晰、随堂练习题丰富
每章开头都配有学习目标,章节末尾提供一套习题供读者检测学习效果。特色3:借助大量图示分析工作原理,降低学习难度,提升学习兴趣
特色4:超多、实用、专业的案例
本书采用理论+案例式的方式编排,几乎每个小节都配有动手案例,每个案例都清晰介绍了应用场景、实现步骤,让读者可以边学边练。特色5:提供真实大型数据清洗项目
本书最后一章讲解了具有真实场景的DVD租赁业务数据清洗的全过程,让读者迅速积累实际项目经验,为未来的工作奠定理论和实践基础。
特色6:教材、资源、服务三合一,高效学习
本书配套丰富的教学资源供广大师生使用,另外,不管您是老师还是学生,使用我们的教材、资源过程中,遇到任何问题,都可以联系我们,我们的服务是贴心、专业的。
第1章 数据清洗概述 1.1 数据清洗的背景 1.1.1 数据质量概述 1.1.2 数据质量的评价指标 1.1.3 数据质量的问题分类 1.2 数据清洗的定义 1.3 数据清洗的原理 1.4 数据清洗的基本流程 1.5 数据清洗的策略 1.6 常见的数据清洗方法 1.7 本章小结 1.8 本章习题 第2章 初识ETL 2.1 基于ETL的数据清洗 2.1.1 ETL的概念 2.1.2 ETL的体系结构 2.1.3 ETL的设计 2.2 ETL关键技术 2.2.1 数据的抽取 2.2.2 数据的清洗转换 2.2.3 数据的加载 2.3 ETL常见工具介绍 2.4 本章小结 2.5 本章习题 第3章 Kettle工具的基本使用 3.1 Kettle简介 3.1.1 Kettle的概述 3.1.2 Kettle的设计原则 3.2 Kettle的下载安装 3.3 Kettle的基本概念 3.3.1 转换 3.3.2 作业 3.4 Kettle的基本功能 3.4.1 转换管理 3.4.2 作业管理 3.4.3 数据库连接 3.5 本章小结 3.6 本章习题 第4章 数据抽取 4.1 抽取文本数据 4.1.1 TSV文件的抽取 4.1.2 CSV文件的抽取 4.2 抽取Web数据 4.2.1 HTML网页的数据抽取 4.2.2 XML文件的数据抽取 4.2.3 JSON文件的数据抽取 4.3 抽取数据库数据 4.3.1 抽取关系型数据库的数据 4.3.2 抽取非关系型数据库的数据 4.4 本章小结 4.5 本章习题 第5章 清洗与检验 5.1 数据去重 5.1.1 完全去重 5.1.2 不完全去重 5.2 缺失值处理 5.2.1 缺失值清洗策略 5.2.2 去除缺失值 5.2.3 填充缺失值 5.3 异常值 5.3.1 出现异常值的原因 5.3.2 检测异常值 5.3.3 删除包含异常值的记录 5.3.4 修补异常值 5.4 数据检验 5.4.1 数据一致性处理 5.4.1 数据规范化处理 5.5 本章小结 5.6 本章习题 第6章 数据转换 6.1 多数据源合并 6.2 不一致数据转换 6.4 数据粒度的转换 6.5 数据的商务规则计算 6.6 本章小结 6.7 本章习题 第7章 数据加载 7.1 数据的加载机制 7.1.1 全量加载 7.1.2 增量加载 7.2 数据的批量加载 7.3 本章小结 7.4 本章习题 第8章 综合案例——构建DVD租赁商店数据仓库 8.1 案例概述 8.1.1 案例背景介绍 8.1.2 数据仓库的架构模型 8.1.3 数据仓库效果预览 8.2 数据准备 8.2.1 sakila数据库的下载和安装 8.2.2 sakila数据库的介绍 8.2.3 数据表的介绍 8.3 案例实现 8.3.1 构建DVD租赁商店数据仓库 8.3.2 加载日期维度表 8.3.3 加载时间维度表 8.3.4 加载员工维度表 8.3.5 加载用户维度表 8.3.6 加载商店维度表 8.3.7 加载演员维度表 8.3.8 加载电影维度表 8.3.9 加载租赁事实表 8.3.10 加载sakila数据库中的数据至sakila_dw数据仓库 8.4 本章小结