Hive数据仓库应用 - 传智教育图书库

内容简介

本书从理论知识入手，结合数据仓库的概念帮助读者更好的理解Hive，在读者掌握Hive相关理论知识的基础之上，逐步带领读者深入的学习Hive。俗话说的好“工欲善其事，必先利其器”，首先我们将帮助读者从创建虚拟机并安装Linux操作系统开始逐步完成Hive的部署，然后在部署完成的Hive环境基础上，帮助读者学习Hive数据定义语言、Hive数据操作语言和Hive数据查询语言的相关操作，在学习了上述Hive三种语言之后，接下来，我们将深入学习Hive的其他功能，包括Hive内置函数、Hive自定义函数、Hive的新特性事务以及Hive的相关优化，从而帮助读者掌握Hive的强大功能和特性。最后，本书通过一个综合项目-教育大数据分析平台，使读者对Hive数据仓库在实际应用中涉及的相关知识内容具有更深入的理解，在此项目中不仅会涉及到使用Hive实现数据仓库分层、数据转换和数据分析的相关操作，而且还涉及使用Sqoop将数据仓库中数据进行导出和导入，以及使用FineBI工具实现数据可视化功能。

适合群体

本书适合拥有Hadoop基础的读者阅读，也可以作为高等院校本、专科计算机相关专业，信息管理等相关专业的大数据课程教材，是一本适合广大计算机编程爱好者的优秀读物。

图书特色

进入21世纪，我们迎来了数据快速增长的时代，人们计量数据的单位由GB进入到了TB、PB、EB、ZB……。在数据快速增长的同时，我们也迎来了大数据的时代。大数据的特点是数据体量巨大、数据种类繁多、数据价值密度低、数据处理速度快。在过去很多年，各个企业、单位都积累了大量丰富的数据，并购买服务器来存储这些数据，可是对于持续不断增长的数据，除了需要不断购买服务器存储这些数据外，又能从这些持续不断积累下来的数据中得到什么？如何去挖掘和利用这些数据？成为企业共同面临的问题。于是一个全新的技术Hive数据仓库进入了大众的视野，它不仅可以存储海量数据，而且还可以基于海量数据进行分析处理，它提出海量数据可以继续沿用传统的数据分析方法SQL语句来处理，开发人员不需要学习新的脚本语言或编程语言，而继续使用熟悉的SQL结构化查询语句来处理大规模的数据。区别是，此时此刻SQL语句不再运行在传统的数据库或者数据仓库中，而是运行在大数据分布式并行计算处理平台上。该数据平台为我们提供了一个工具，那就是Hive离线计算处理工具，所用到的语言称之为HiveQL查询语言，其语法结构与传统SQL语言几乎是一模一样的，这就是本书将要介绍的Hive数据仓库技术。Hive能解决不断增长的海量数据的处理和存储问题，帮助企业从数据中获取巨大的潜在商业价值。

配套资源

进入高校教辅平台查看资源

图书目录

第1章 Hive简介
1.1	认识数据仓库
1.1.1 数据仓库简介
1.1.2 数据仓库分层
1.1.3 数据仓库的数据模型
1.2	Hive概述
1.3	Hive架构
1.4	Hive工作原理
1.5	Hive数据类型
1.6	本章小结
1.7	课后习题
第2章 Hive部署
2.1	Linux环境的搭建
2.1.1 创建虚拟机
2.1.2 启动虚拟机并安装Linux操作系统
2.1.3 克隆虚拟机
2.1.4 配置Linux系统网络及主机名
2.1.5 配置SSH服务
2.2	JDK的部署
2.3	Zookeeper的部署
2.3.1 Zookeeper集群的安装与配置
2.3.2 Zookeeper集群的启动与关闭
2.4	Hadoop的部署
2.4.1 Hadoop高可用集群的规划
2.4.2 安装Hadoop
2.4.3 配置Hadoop高可用集群
2.4.4 启动Hadoop高可用集群
2.5	Hive的部署
2.5.1 Hive部署之嵌入模式
2.5.2 Hive部署之本地模式
2.5.3 Hive部署之远程模式
2.6	本章小结
2.7	课后习题
第3章 Hive的数据定义语言
3.1	数据库的基本操作
3.1.1 创建数据库
3.1.2 查询数据库
3.1.3 查看数据库信息
3.1.4 切换数据库
3.1.5 修改数据库
3.1.6 删除数据库
3.2	数据表的基本操作
3.2.1 CREATE TABLE句式分析
3.2.2 数据表简介
3.2.3 创建数据表
3.2.4 查看数据表
3.2.5 修改数据表
3.2.6 删除数据表
3.3	分区表
3.3.1 创建分区表
3.3.2 查询分区
3.3.3 添加分区
3.3.4 重命名分区
3.3.5 移动分区
3.3.6 删除分区
3.4	分桶表
3.4.1 创建分桶表
3.4.2 查看分桶表信息
3.5	临时表
3.6	视图
3.6.1 创建视图
3.6.2 查询视图信息
3.6.3 查看视图
3.6.4 修改视图
3.6.5 删除视图
3.7	索引
3.7.1 Hive中的索引
3.7.2 创建索引
3.7.3 查看索引表
3.7.4 查看索引
3.7.5 重建索引
3.7.6 删除索引
3.8	本章小结
3.9	课后习题
第4章 Hive的数据操作语言
4.1	加载文件
4.1.1 加载文件的语法格式
4.1.2 向分区表加载文件
4.2	基本查询
4.3	插入数据
4.3.1 基本插入
4.3.2 查询插入
4.3.3 向分区表插入数据
4.4	IMPORT和EXPORT
4.5	本章小结
4.6	课后习题
第5章 Hive数据查询语言
5.1	SELECT句式分析
5.2	Hive运算符
5.2.1 关系运算符
5.2.2 算术运算符
5.2.3 逻辑运算符
5.2.4 复杂运算符
5.3	公用表表达式
5.4	分组操作
5.5	排序操作
5.6	UNION语句
5.7	JOIN语句
5.8	抽样查询
5.8.1 随机抽样
5.8.2 分桶抽样
5.8.3 数据块抽样
5.9	本章小结
5.10 课后习题
第6章 Hive函数
6.1	Hive内置函数
6.1.1 聚合函数
6.1.2 数学函数
6.1.3 集合函数
6.1.4 类型转换函数
6.1.5 日期函数
6.1.6 条件函数
6.1.7 字符串函数
6.1.8 表生成函数
6.2	Hive自定义函数
6.2.1 UDF
6.2.2 UDTF
6.2.3 UDAF
6.3	本章小结
6.4	课后习题
第7章 Hive事务
7.1	事务特性
7.2	Hive事务的设计与实现
7.3	开启Hive事务
7.4	更新操作
7.5	删除操作
7.6	本章小结
7.7	课后习题
第8章 Hive优化
8.1	Hive存储优化
8.2	Hive参数优化
8.3	HiveQL语句优化技巧
8.4	本章小结
8.5	课后习题
第9章 综合项目——教育大数据分析平台
9.1	项目概述
9.1.1 项目背景介绍
9.1.2 需求分析
9.1.3 原始数据结构
9.1.4 数据仓库分层设计
9.1.5 项目架构
9.2	部署Sqoop
9.3	实现数据仓库分层
9.4	数据采集
9.5	数据转换
9.6	数据分析
9.6.1 实现地区访问用户量统计
9.6.2 实现会话页面排行榜
9.6.3 实现访问用户量统计
9.6.4 实现来源渠道访问用户量统计
9.6.5 实现咨询率统计
9.7	数据可视化
9.7.1 导出数据
9.7.2 安装、启动与配置FineBI
9.7.3 实现数据可视化
9.8	本章小结

展开全部内容