hive元数据存储在哪里(hive元数据存储在哪里 ADerb)

本篇文章给大家谈谈hive元数据存储在哪里,以及hive元数据存储在哪里 ADerb对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。

本文目录一览:

大数据专题--Hive 与 impala

由FaceBook开发,贡献给APache。

Hive是基于Hadoop的一个 数据仓库 工具,依赖HDFS完李竖成数据存储,依赖于MapReduce处理数据。其本身并不存储数据。Hive 定义了简单的类 SQL 查询语言,称为 HQL,通过孙氏编写HiveQL语句,运行具体的MapReduce任务。

1)采用批处理方式处理海量数据。

2)提供了ETL工具。

 Hive的体系结构可以分为以下几部分:

Hive 对外提供了三种则扰散服务模式,即 Hive 命令行模式(CLI),Hive 的 Web 模式(WUI),Hive 的远程服务(Client)。Hive 远程服务通过 JDBC 等访问来连接 Hive ,这是日常中最需要的方式。 

元数据存储在Mysql或Derby中。Hive 中的元数据包括表的名字,表的列和分区及其属性,表的属性(是否为外部表等),表的数据所在目录等。

由Cloudera公司开发的新型查询系统。

 Impala元数据存储在Hive中,不能独立运行,依赖Hive元数据。

Impala执行查询时,不需要转换成MapReduce任务,可以直接与HDFS或HBase进行交互查询,查询效率远远高于Hive。

Impala采用与Hive相同的SQL语法,ODBC驱动程序和用户接口。

Impala主要由Impalad, State Store和CLI组成,执行查询的时候分布在多个节点上进行。

Impalad:负责协调客户端提交变得查询的执行,与HDFS的数据节点运行在同一节点上。

State Store:负责收集分布在集群中各个Impalad进城的资源信息用于查询调度。

CLI: 提供给用户查询使用的命令行工具(Impala Shell使用python实现),同时Impala还提供了Hue,JDBC, ODBC使用接口。

DBeaver中配置的使用JDBC来访问。

其具体执行过程如下:

1、试用场景:

Hive:跑批

Impala:实时交互

2、计算方式:

Hive:依赖于MapReduce框架

Impala:直接分发执行计划到各个Impalad执行查询

3、资源使用情况:

Hive执行过程中,若内存放不下所有数据则会使用外存。

Impala只用内存。

[img]

hive中怎么删除表中的部分数据

Hive的数据管理:

(1)元数据存储

Hive 将元数据存储在 RDBMS 中,有三种模式可以连接到数据库:

Single User Mode:此模式连接到一个 In-memory 的数据库 Derby,一般用于 Unit Test。

Multi User Mode:通过网络连接到一个数据库中,这是最常用的模式。

Remote Server Mode:用于非 Java 客户端访问元数据库,在服务器端启动一个 MetaStoreServer,客户端则利用 Thrift 协议通过 MetaStoreServer来访问元数据库。

(2)数据存储

首先,Hive 没有专门的数据存储格式,也没有为数据建立索引,用户可以非常自由地组织 Hive 中的表,只需要在创建表的时候告诉 Hive 数据中的列分隔符和行分隔符,它就可以解析数据了。

其次,Hive 中所有的数据都存储在 HDFS 中,Hive 中包含4种数据模型:Table、External Table、Partition、Bucket。

Hive 中的 Table 和数据库中的 Table 在概念上是类似的,每一个 Table 在 Hive 中都有一个相应的目录来存储数据。例如,一个表 pvs,它在 HDFS 中袜早毕的路径为:/wh/pvs,其中,wh 是在 hive-site.xml 中由 ${hive.metastore.warehouse.dir} 指定的数据仓库的目睁禅录,所有的 Table 数据(不包括 External Table)都保存在这个目录中。

Partition 对应于数据库中Partition 列的密集索引,但是 Hive 中 Partition 的组织方式与数据库中的很不相同。在 Hive 中,表中的一个 Partition 对应于表下的一个目录,所有的 Partition 数据都存储在对应的目录中。例如:pvs 表中包含 ds 和 city 两个 Partition,则对应于 ds = 20090801, city = US 的 HDFS 子目录为:/wh/pvs/ds=20090801/city=US;对应于 ds = 20090801, city = CA 的 HDFS 子目录为:/wh/pvs/ds=20090801/city=CA。

Buckets 对指定列计算 hash,根据 hash 值切分数据,目的是为了便于并行,每一个 Buckets对应一个文件。将 user 列分散至 32 个Bucket上,首先对 user 列的值计算 hash,比如,对应 hash 值为 0 的 HDFS 目录为:/wh/pvs/ds=20090801/city=US/part-00000;对应hash 值为 20 的 HDFS 目录为:/wh/pvs/ds=20090801/city=US/part-00020。

External Table 指向已经在 HDFS 中存在的数据,可以创建 Partition。它和 Table 在元数据的组织结构上是相同的,而在实际数据的存储上则有较大的差异。

在Table 的创建过程和数据加载过程(这两个过程可以在同一个语句中完成)中,实际数据会被移动到数据仓库目录中。之后对数据的访问将会直接在数据仓库的目录中完成。删除表时,表中的数据和元数据将会被同时删除。

External Table 只有一个过程,因为加载数据和创建告芹表是同时完成的。实际数据是存储在 Location 后面指定的 HDFS 路径中的,它并不会移动到数据仓库目录中。

(3)数据交换

数据交换主要分为以下几个部分

用户接口:包括客户端、Web界面和数据库接口。

元数据存储:通常是存储在关系数据库中的,如MySQL、Derby等。

解释器、编译器、优化器、执行器。

Hadoop:用 HDFS进行存储,利用 MapReduce 进行计算。

用户接口主要有三个:客户端、数据库接口和Web界面,其中最常用的是客户端。Client 是 Hive 的客户端,当启动 Client 模式时,用户会想要连接Hive Server,这时需要指出 Hive Server 所在的节点,并且在该节点启动 Hive Server。Web界面是通过浏览器访问 Hive的。

Hive 将元数据存储在数据库中,如 MySQL、Derby中。Hive 中的元数据包括表的名字、表的列和分区及其属性、表的属性(是否为外部表等)、表数据所在的目录等。

解释器、编译器、优化器完成 HQL 查询语句从词法分析、语法分析、编译、优化到查询计划的生成。生成的查询计划存储在 HDFS 中,并在随后由 MapReduce调用执行。

Hive 的数据存储在 HDFS 中,大部分的查询由 MapReduce 完成(包含 * 的查询不会生成 MapRedcue 任务,比如 select * from tbl)。

以上从Hadoop的分布式文件系统HDFS、分布式数据库HBase和数据仓库工具Hive入手介绍了Hadoop的数据管理,它们都通过自己的数据定义、体系结构实现了数据从宏观到微观的立体化管理,完成了Hadoop平台上大规模的数据存储和任务处理

Hive元数据库是用来做什么的,存储哪些信息

本质上只是用来存储hive中有歼改仔哪些数歼燃据库,哪些表,表的模式,目录氏汪,分区,索引以及命名空间。为数据库创建的目录一般在hive数据仓库目录下。

关于hive元数据存储在哪里和hive元数据存储在哪里 ADerb的介绍到此就结束了,不知道你从中找到你需要的信息了吗 ?如果你还想了解更多这方面的信息,记得收藏关注本站。

相关阅读

  • mssqlserver(mssqlserver怎么安装)

    mssqlserver(mssqlserver怎么安装)

    简介:MSSQL Server是由微软公司开发的一种关系型数据库管理系统,是在Windows操作系统上运行的数据库服务器。它旨在提供可靠性、高性能和安全性,被广泛应用于企业级应用程序和网站开发中。多级标题:一、MSSQL Server的特点...

    2024.04.22 22:38:00作者:intanet.cnTags:mssqlserver
  • js转json(js转json在线)

    js转json(js转json在线)

    **简介**在IT技术领域中,JavaScript(简称JS)是一种常用的脚本语言,用于网页开发和编程。JSON(JavaScript Object Notation)则是一种轻量级的数据交换格式,常用于存储和传输数据。本文将讨论如何将Ja...

    2024.04.22 22:23:30作者:intanet.cnTags:js转json
  • 数据库有那些(数据库有哪些索引)

    数据库有那些(数据库有哪些索引)

    一、简介数据库是计算机中用于存储和管理数据的系统,是信息系统中最重要的组成部分之一。数据库技术在信息化时代发挥着重要作用,广泛应用于各行各业。数据库的种类有很多,每种都有其特点和适用场景。下面将介绍一些常见的数据库类型。二、关系数据库1....

    2024.04.22 22:14:00作者:intanet.cnTags:数据库有那些
  • 关于sparksqlsplit的信息

    关于sparksqlsplit的信息

    简介:作为一种基于内存的分布式数据处理框架,Spark SQL使得数据分析更加高效和灵活。而在Spark SQL中,split函数是非常常用的函数,用于将字符串通过指定的分隔符进行拆分。本文将详细介绍sparksqlsplit函数的用法和示...

    2024.04.22 22:13:30作者:intanet.cnTags:sparksqlsplit
  • 数据的处理方法(实验数据的处理方法)

    数据的处理方法(实验数据的处理方法)

    在当今数字化时代,数据处理变得越发重要。从企业管理到科研领域,人们需要处理大量的数据以获取有价值的信息。本文将介绍一些常见的数据处理方法,帮助读者更好地理解和应用数据处理技术。# 传统数据处理方法传统数据处理方法主要包括数据录入、数据清洗、...

    2024.04.22 22:09:30作者:intanet.cnTags:数据的处理方法
  • mongodb和hbase(mongodb和hbase性能)

    mongodb和hbase(mongodb和hbase性能)

    MongoDB和HBase是两种流行的NoSQL数据库系统,它们在处理大规模数据和高并发访问方面都有很好的表现。本文将对MongoDB和HBase进行比较和分析,以帮助读者了解它们各自的优缺点和适用场景。# 一、MongoDB介绍Mongo...

    2024.04.22 22:00:00作者:intanet.cnTags:mongodb和hbase
  • mysql转sqlserver(MySQL转sqlserver数据库)

    mysql转sqlserver(MySQL转sqlserver数据库)

    **简介**将MySQL数据库转移到SQL Server数据库是常见的需求,因为有时候企业需要更稳定、更强大的数据库管理系统来满足数据需求。在本文中,我们将详细讨论如何将MySQL数据库成功转移到SQL Server数据库。**准备工作**...

    2024.04.22 21:45:30作者:intanet.cnTags:mysql转sqlserver
  • 数据库的建立(数据库的建立与维护实验心得)

    数据库的建立(数据库的建立与维护实验心得)

    标题:数据库的建立简介:数据库是指在计算机系统中,用于存储和管理数据的系统。在IT技术领域,数据库起着至关重要的作用,它可以帮助我们更好地组织和管理数据,提高数据的访问效率和安全性。下面将详细介绍数据库的建立过程和相关知识。一、数据库类型1...

    2024.04.22 21:30:00作者:intanet.cnTags:数据库的建立