Posted 2019-07-10Updated 2019-07-10Database / SQL DB3 minutes read (About 448 words)

HiveSQL

命令行参数

-d/--define <key=value>：替换脚本中shell形式变量
--hivevar <key=value>：替换脚本中shell形式变量
- 结合hive脚本中设置shell变量使用
-h <hostname>：hive服务器
-p <port>：hive服务器端口
-database <database>：连接数据库
-e <quoted-query-string>：从命令行获取、执行hive脚本
-f <filename>：从文件获取、执行hive脚本
-i <filename>：初始化hive脚本
--hiveconf <property=value>：设置hive参数
-S/--slient：安静模式启动交互hive shell
-v/--verbose：详细模式
-H/--help：帮助

辅助语句

结果输出

INSERT INTO/OVERWRITE：查询结果追加/覆盖在hive表中
INSERT INTO/OVERWRITE [LOCAL] DIRECTORY：查询结果追加/ 覆盖本地/HDFS目录

有分区情况下，仅覆盖当前分区

内置函数

聚合函数

collect_set()：配合group by合并、消除重复字段，返回 array
concat_ws()：连接字符串
if(<condition>, <true_value>, <false_value>)：判断条件
size()：返回array长度
length()：返回字符串大小

配置相关语句

文本分隔符

记录分隔：\n
字段分隔：\001（八进制）ASCII码1字符
Array、Struct、Map等集合中元素分隔：\002ASCII码1字符
Map中键值对分隔：\003ASCII码1字符

line terminated by `\n`
row format delimited fields terminated by `\001`
collection items terminated by `\002`
map keys terminated by `\003`

空值

hive中空值一般有两种存储方式
- NULL：底层存储NULL，查询显示为NULL
- \N：底层存储\N，查询显示为NULL，查询输出为\N
空值查询：<field> is NULL
- NULL：也可<field> = 'NULL'
- \N：也可<field> = '\\N'（转义）

底层存储设置参见表存储

空字符串不是空值，需要用<field> = ''查询

表存储配置

分区

属性

`serdeproperties`

设置空值存储方式

1	alter <table> SET serdeproperites('serialization.null.format' = '\N')

Posted 2019-07-10Updated 2021-07-16Database / Hadoop11 minutes read (About 1679 words)

Hive

Hive简介

Hive是Hadoop平台上的数据仓库，面向结构化数据分析

将结构化数据文件映射为一张数据库表
提供完整的SQL查询功能，所用语言称为HiveQL
- Hive将HiveQL转换为MapReduce作业，在hadoop平台运行
- Hive相当于一个在hadoop平台上的SQL Shell
- 方便用户使用HiveQL快速实现简单数据分析、统计，而不必开发专用MapReduce程序，学习成本低
相较于传统关系数据库，Hive具有如下特点

||Hive|传统关系型数据库| |———|———|———-| |数据存储|HDFS分布式文件系统|服务器本地文件系统| |查询处理|MapReduce计算模型|自行设计的查询处理模型| |应用场景|海量数据分析处理|高性能查询，实时性好| |数据更新|不支持对具体数据行修改，只能覆盖、追加|支持| |事务处理|不支持|支持| |索引支持|不支持，一般需要对数据进行全部扫描|支持，多种索引| |扩展能力|基于Hadoop平台，存储、计算强大的扩展能力|扩展性较差| |数据加载|Writing Time Schema：数据加载时无需进行模式检查，在读取数据时对数据以一定模式进行解释|Reading Time Schema：要求数据必须符合数据库表结构|

Hive服务端组件

Driver

负责将用户的编写的HiveQL查询语句进行解析、编译、优化、生成执行计划，然后调用底层MapReduce计算模型执行，包括

Compiler：编译器
Optimizer：优化器
Executor：执行器

MetaStore

元信息管理器，对Hive正确运行举足轻重

MetaStore实际上就是Thrift服务
- MetaStore客户端（hive、spark shell等）和服务端通过 thrift协议进行通信
- 客户端通过连接metastore服务，实现对元数据的存取
- 通过Thrift获取元数据，屏蔽了访问MetaStore Database 所需的驱动、url、用户名、密码等细节
负责存储元数据在关系型数据库（称为MetaStore Database）
- 元数据包括Hive创建的database、table等元信息
- 支持的关系型数据库
  - Derby：Apache旗下Java数据库
  - MySQL
MetaStore服务可以独立运行，可以让多个客户端同时连接、甚至安装到远程服务器集群，保持Hive运行的健壮性

Embedded Metastore Server(Database Derby)

内嵌模式：使用内嵌的Derby数据库存储元数据

不需要额外起Metastore服务
一次只能一个客户端连接，使用做实验，不适合生产环境
Derby默认会在调用hive命令所在目录的metastore_db文件中持久化元数据

embeded_metastore_database

Local Metastore Server

本地元存储

采用外部数据库，支持
- MySQL
- Postgres
- Orcale
- MSSQL
数据库独立于hive部署，hive服务使用JDBC访问元数据，多个服务可以同时进行
本地元存储不需要单独起metastore服务，用的是跟hive在同一进程metastore服务

local_metastore_server

Remote Metastore Server

远程元存储

类似于本地元存储，只是需要单独启动metastore服务，和hive 运行在不同的进程（甚至主机）中
需要在每个客户端配置文件配置连接到该metastore服务
- hive通过thrift访问metastore
此模式可以控制到数据库的连接

remote_metastore_server

hiveserver2

基于的Thrift RPC实现

远程客户端可以通过hiveserver2执行对hive的查询并返回结果
- 支持多客户端并发、身份验证
可以使用JDBC、ODBC、Thrift连接hiveserver2（Thrift Server 特性）
hiveserver2也能访问元数据，不依赖于metastore服务

Hive客户端组件

CLI

Command Line Interface

允许用户交互式的使用Hive

THrift Client/beeline

基于Thrift的JDBC Client

包括JDBC/ODBC驱动程序

WEB GUI

允许用户通过WEB GUI图形界面访问Hive

需要首先启动Hive Web Interface服务

Hive查询处理

过程

用户提交HQL至Driver
Driver把查询交给Compiler，Compiler使用MetaStore中元信息检查、编译
查询经过Optimizer优化交由Executor Engine执行，转换为 MapReduce作业后调用MapReduce执行
MapReduce存取HDFS，对数据进行处理，查询结果返回Driver

数据类型

基础数据类型
- Integer
- Float
- Double
- String
复杂数据类型：通过嵌套表达复杂类型
- Map
- List
- Struct
还允许用户自定以类型、函数扩展系统

数据存储模型

使用传统数据库：Table、Row、Column、Partition等概念，易于理解

Database

相当于关系型数据库中的Namespace

将不同用户数据隔离到不同的数据库、模式中

Table

表格

逻辑上由存储的数据、描述数据格式的相关元数据组成
- 表格数据存放在分布式文件系统（HDFS）中
- 元数据存储在MetaStore服务指定关系型数据库中
创建表格、加载数据之前，表格在HDFS中就是一个目录，表格分为两种类型
- 托管表：数据文件存放在Hive数据仓库中，即HDFS中的一个目录，是Hive数据文件默认存放路径
- 外部表：数据文件可以存放在其他文件系统中

Partition

根据“分区列”的值，对表格数据进行粗略划分的极值

存储上：是Hive中表格主目录的子目录，名字即为定义的分区列名字
逻辑上：分区不是表中的实际字段，是虚拟列
- 根据虚拟列（可能包含多个实际字段）划分、存储表格数据
- 同一虚拟列中字段通常应该经常一起被查询，这样在需要存取部分数据字段时，可以只扫描部分表

Bucket

Table、Partition都是目录级别的数据拆分，指定Bucket的表格，数据文件将按照规律拆分成多个文件

每个桶就是table、partition目录中的文件
一般使用Hash函数实现数据分桶，创建表时，需要指定桶数量、分桶操作依据的列
用户执行Sample查询时，Hive可以使用分桶信息，有效的Prune Data，如：对每个目录下单个桶文件进行查询

Posted 2019-03-21Updated 2021-08-04Database / Hadoop15 minutes read (About 2247 words)

Hadoop概述

Hadoop（核心）：HDFS和MapReduce/YARN
Hadoop家族：建立在Hadoop基础上的一系列开源工具

hadoop_relations

Hadoop

Hadoop时Apache的一个分布式计算、java语言实现的开源框架，实现在大量计算机组成的集群中对海量数据进行分布式计算。相比于依赖硬件的可靠性，Hadoop被设计为可以检测、处理应用层面的 failures，能够提供构建于电脑集群上的可靠服务。

Hadoop：Apache的分布式计算开源框架，提供分布式文件系统 HDFS、MapReduce/YARN分布式计算的软件架构

Hadoop Common

支持其它Hadoop模块的公用组件

Hadoop Distributed File System(HDFS)

虚拟文件系统，让整个系统表面上看起来是一个空间，实际上是很多服务器的磁盘构成的

Hadoop YARN

Yet Another Resource Negotiator，通用任务、集群资源分配框架，面向Hadoop的编程模型

YARN将classic/MapReduce1中Jobtracker职能划分为多个独立实体，改善了其面临的扩展瓶颈问题
YARN比MapReduce更具一般性，MapReduce只是YARN应用的一种形式，可以运行Spark、Storm等其他通用计算框架
YARN精妙的设计可以让不同的YARN应用在同一个集群上共存，如一个MapReduce应用可以同时作为MPI应用运行，提高可管理性和集群利用率

Hadoop MapReduce

YARN基础上的大数据集并行处理系统（框架）

包括两个阶段
- Map：映射
- Reduce：归一
在分布式系统上进行计算操作基本都是由Map、Reduce概念步骤组成
- 分布式系统，不像一般的数据库、文件系统，无法从上至下、从头到尾进行求和等操作
- 需要由分散的节点不断向一个点聚拢的计算过程
不适合实时性要求的应用，只适合大数据离线处理

Apache下Hadoop相关项目

高频

Ambari

用于部署（供应）、管理、监控Hadoop集群的Web工具

支持HDFS、MapReduce、Hive、HCatalog、HBase、 Oozie、ZooKeeper、Pig、Sqoop
提供dashboard用于查看集群健康程度，如：热度图
能够直观的查看MapReduce、Pig、Hive应用特点，提供易用的方式考察其执行情况

HBase

Hadoop项目子项目，高可靠、高性能、面向列、可伸缩的分布式存储系统

该技术源于Fay Chang撰写的Google论文《Bigtable：一个结构化数据的分布式存储系统》，类似于Bigtable在Google 文件系统上提供的分布式数据存储一样，HBase在Hadoop的基础上提供了类似于Bigtable的能力
适合非结构化数据存储
可用于在廉价PC Server上搭建大规模结构化存储集群，是 NoSQL数据库的两个首选项目（MongoDB）

Hive

基于Hadoop的数据仓库工具

在Hive中建立表，将表映射为结构化数据文件
可以通过类SQL语句直接查询数据实现简单的MapReduce统计，而不必开发专门的MapReduce应用
- Hive会将SQL语句转换为MapReduce任务查询Hadoop
- 速度很慢
- 适合数据仓库的统计分析
- 支持SQL语法有限

Pig

基于Hadoop的大规模数据高层分析工具（类似于Hive）

提供SQL-Like语言PigLatin
- 其编译器会把类SQL的数据分析请求，转换为一系列经过优化处理的MapReduce运算
- 是一种过程语言，和Hive中的类SQL语句相比，更适合写脚本，而Hive的类SQL语句适合直接在命令行执行

Zookeeper

Hadoop正式子项目，针对大型分布式应用设计的分布式、开源协调系统

提供功能：配置维护、名字服务、分布式同步、组服务
封装好复杂、易出错的关键服务，提供简单易用、功能稳定、性能高效的接口（系统），解决分布式应用中经常遇到的数据管理问题，简化分布式应用协调及管理难度，提供高性能分布式服务
通常为HBase提供节点间的协调，部署HDFS的HA模式时是必须的

Spark

基于内存计算的开源集群计算系统，目的是让数据分析更加快速

低频

Mahout

基于Hadoop的机器学习、数据挖掘的分布式框架

使用MapReduce实现了部分数据挖掘算法，解决了并行挖掘问题
- 包括聚类、分类、推荐过滤、频繁子项挖掘
通过使用Hadoop库，Mahout可以有效扩展至云端

Cassandra

开源分布式NoSQL数据库系统，最初由Facebook开发，用于存储简单格式数据，集Google BigTable数据模型和Amazon Dynamo 的完全分布式架构于一身

Avro

数据序列化系统，设计用于支持数据密集型、大批量数据交换应用，是新的数据序列化格式、传输工具，将逐步取代Hadoop原有的 IPC机制

Chukwa

用于监控大型分布式系统的开源数据收集系统，可以将各种类型的数据收集成适合Hadoop处理的文件，保存在HDFS中供MapReduce 操作

Tez

基于YARN的泛用数据流编程平台

提供强力、灵活的引擎用于执行任何DAG任务，为批处理和交互用例处理数据

Tez正逐渐被Hive、Pig等Hadoop生态框架采用，甚至被一些商业公司用于替代MapReduce作为底层执行引擎

其他Hadoop相关项目

高频

Sqoop

用于将Hadoop和关系型数据库中数据相互转移的开源工具

可以将关系型数据库（MySQL、Oracle、Postgres）中数据转移至Hadoop的HDFS中
也可以将HDFS的数据转移进关系型数据库中

Impala

由Cloudera发布的实时查询开源项目

模仿Google Dremel
称比基于MapReduce的Hive SQL查询速度提升3~30倍，更加灵活易用

Phoenix

apache顶级项目，在HBase上构建了一层关系型数据库，可以用 SQL查询HBase数据库，且速度比Impala更快，还支持包括二级索引在内的丰富特性，借鉴了很多关系型数据库优化查询方法

Oozie

工作流引擎服务器，用于管理、协调运行在Hadoop平台（HDFS、Pig、MapReduce）的任务

Cloudera Hue

基于Web的监控、管理系统，实现对HDFS、MapReduce/YARN、 HBase、Hive、Pig的Web化操作和管理

低频

Hama

基于HDFS的BSP(Bulk Synchronous Parallel)并行计算框架，可以用包括图、矩阵、网络算法在内的大规模、大数据计算

Flume

分布的、可靠的、高可用的海量日志聚合系统，可用于日志数据收集、处理、传输

Giraph

基于Hadoop的可伸缩的分布式迭代图处理系统，灵感来自于BSP和 Google Pregel

Crunch

基于Google FlumeJava库编写的Java库，用于创建MapReduce 流水线（程序）

类似于Hive、Pig，提供了用于实现如连接数据、执行聚合、排序记录等常见任务的模式库
- 但是Crunch不强制所有输入遵循同一数据类型
- 其使用一种定制的类型系统，非常灵活，能直接处理复杂数据类型，如：时间序列、HDF5文件、HBase、序列化对象（protocol buffer、Avro记录）
尝试简化MapReduce的思考方式
- MapReduce有很多优点，但是对很多问题，并不是合适的抽象级别
- 出于性能考虑，需要将逻辑上独立的操作（数据过滤、投影、变换）组合为一个物理上的MapReduce操作

Whirr

运行于云服务的类库（包括Hadoop），提供高度互补性

相对中立
支持AmazonEC2和Rackspace的服务

Bigtop

对Hadoop及其周边生态打包、分发、测试的工具

HCatalog

基于Hadoop的数据表、存储管理，实现中央的元数据、模式管理，跨越Hadoop和RDBMS，利用Pig、Hive提供关系视图

Llama

让外部服务器从YARN获取资源的框架

非CDH组件

Fuse

让HDFS系统看起来像普通文件系统

Hadoop Streamin

MapReduce代码其他语言支持，包括：C/C++、Perl、Python 、Bash等

HiveSQL

命令行参数

辅助语句

结果输出

内置函数

聚合函数

配置相关语句

文本分隔符

空值

表存储配置

分区

属性

serdeproperties

Hive

Hive简介

Hive服务端组件

Driver

MetaStore

Embedded Metastore Server(Database Derby)

Local Metastore Server

Remote Metastore Server

hiveserver2

Hive客户端组件

CLI

THrift Client/beeline

WEB GUI

Hive查询处理

过程

数据类型

数据存储模型

Database

Table

Partition

Bucket

Hadoop概述

Hadoop

Hadoop Common

Hadoop Distributed File System(HDFS)

Hadoop YARN

Hadoop MapReduce

Apache下Hadoop相关项目

高频

Ambari

HBase

Hive

Pig

Zookeeper

Spark

低频

Mahout

Cassandra

Avro

Chukwa

Tez

其他Hadoop相关项目

高频

Sqoop

Impala

Phoenix

Oozie

Cloudera Hue

低频

Hama

Flume

Giraph

Crunch

Whirr

Bigtop

HCatalog

Llama

非CDH组件

Fuse

Hadoop Streamin

Categories

Recents

Advertisement

follow.it

`serdeproperties`