hadoophbase(hadoop hbase hive spark 关系)

本篇文章给大家谈谈hadoophbase,以及hadoop hbase hive spark 关系对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。

本文目录一览:

Hadoop生态系统-新手快速入门(含HDFS、HBase系统架构)

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。

用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。

Hadoop实现悉晌激了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。

Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,而MapReduce则为海量的数据提供了计算。

广义的Hadoop,一般称为Hadoop生态系统,如下所示。

Hadoop生态系统中这些软件的作用:

HDFS 采用了主从(Master/Slave)结构模型,一个HDFS集群包括一个名称节点(NameNode)和若干个数据节点(DataNode)。

HDFS采用Java语言开发,因此任何支持JVM的机器都可以部署名称节点和数据节点。

在配置好Hadoop 集群之后,可以通过浏览器访问 http://[NameNodeIP]:9870,查询HDFS文件系统。通过该Web界面,可以查看当前文件系统中各个节点的分布信息。

HBase系统架构如下所示,包括客户端、Zookeeper服务器、Master主服务器、Region服务器。一般而言,HBase会采用HDFS作为底层数据存储。

在HBase服务器集群中,包含了一个Master和多个Region服务器,Master是HBase集群的“总管”,它必须知道Region服务器的状态。

HBase中可以启动多个Master,但是Zookeeper 可以帮助选举出一个Master 作为集群的总管,并保证在任何时刻总有唯一一个Master在运行,这样可以避免Master单点失效的问题。谨核

Region服务器是HBase中最核心的模块,负责维护分配给自己的Region,并响应用户的读写请求。

Store是Region服务器的核心。每个Store对应了表中的一个列族的存储。每一个Store包含了一个MemStore缓存和若干个StoreFile文件。

HBase采用HLog来保证系统发生故障时,能够恢复到正确的状态。HLog是磁盘上面的记录文件,它记录着所有的更新操作。

HBase系统为每个Region服务器配置了一个HLog文件,它是一种预写式日志(Write Ahead Log),也就是说,用户更新数睁袜据必须首先被记入日志后,才能写入MemStore缓存。

此外,Pig和Hive还为HBase提供了高层语言支持,使得在HBase上进行数据统计处理变的非常简单。 Sqoop则为HBase提供了方便的RDBMS数据导入功能,使得传统数据库数据向HBase中迁移变的非常方便。

注意:Hadoop 安装完成之后,只包含HDFS和MapReduce,并不含HBase,因此需要在Hadoop 之上继续安装HBase。

[img]

Hadoop、Hbase、Hive版本兼容性

当我们想整合hadoop,hbase,hive,zookeeper的时候,如果刚入门,可能认为这是比较简单的问题。但是当你自己真正想整合的时候,却会遇到很多的问题。1.hadoop与hbase哪些版本兼容?2.hadoop与hive哪些版本兼容?3.hbase与hive哪些版本兼容?4.hbase与zookeeper哪些版本兼容?所以当我们真正想做整合的时候,我们需要解决上面四个问题,有些同学,忽略上面问题,直接部署,导致产生各种问题。所以我们现在就要解决上面问题。第一个问题,hadoop与hbase哪些版本兼容。

这里的每一个问题,当然我们需要引用官网的内容。

"S" = supported

这时候你就能找到hbase与hadoop的兼容信息了。如果你还是找不到,有下面两种方式:1.about云论坛提问,会有比较多的热心人帮助2.此版本内容会录制视频,欢迎捐助hadoop生态系统零基础入门及大数据实战第一个问题算是解决,接着我们看第二个问题2.hadoop与hive哪些版本兼容?

hadoop与hive版本对应关系

hive版本

2.0.0

支持hadoop版本Hadoop 2.x.y

hive版本

1.2.1

支持hadoop版本Hadoop 1.x.y, 2.x.y

hive版本

1.0.1, 1.1.1

支持hadoop版本Hadoop 1.x.y, 2.x.yhive版本

1.1.0

支持hadoop版本Hadoop 1.x.y, 2.x.yhive版本 1.0.0

支持hadoop版本Hadoop 1.x.y, 2.x.y

hive版本0.13.1

支持hadoop版本

Hadoop 0.20.x, 0.23.x.y, 1.x.y, 2.x.y

hive版做闭本0.13.0

支持hadoop版本

Hadoop 0.20.x, 0.23.x.y, 1.x.y, 2.x.y

hive版本0.12.0

支持hadoop版本芦敬

Hadoop 0.20.x, 0.23.x.y, 1.x.y, 2.x.y

hive版本0.11.0

支持hadoop版本

Hadoop 0.20.x, 0.23.x.y, 1.x.y, 2.x.y

hive版本0.10.0

支持hadoop版本

Hadoop 0.20.x, 0.23.x.y, 1.x.y, 2.x.y

上面是今年2016年更新内容.

那么我们该如何随着版本的更新,知道版本兼容?

收下我们打开下面网址:

网址:陪胡慎

Hadoop, HBase, Hive, ZooKeeper默认端口说明

组件 |Daemon |端口 |配置 |说明

--|

HDFS |DataNode |50010 |dfs.datanode.address |datanode服务端口,用于数据传输

| |50075 |dfs.datanode.http.address |http服务的端口

| |50475 |dfs.datanode.https.address |https服务的端口

| |50020 |dfs.datanode.ipc.address |ipc服毁州务的端口

|NameNode |50070 |dfs.namenode.http-address |http服务的端口

| |50470 |dfs.namenode.https-address |https服务的端口

| |8020 |fs.defaultFS |接收Client连接的RPC端口,用于获取文件系统metadata信息。

|journalnode |8485 |dfs.journalnode.rpc-address |RPC服务

| |8480 |dfs.journalnode.http-address |HTTP服冲返务

|ZKFC |8019 |dfs.ha.zkfc.port |ZooKeeper FailoverController,用于NN HA

YARN |ResourceManager |8032 |yarn.resourcemanager.address |RM的applications manager(ASM)端口

| |8030 |yarn.resourcemanager.scheduler.address |scheduler组件的IPC端口

| |8031 |yarn.resourcemanager.resource-tracker.address |IPC

| |8033 |yarn.resourcemanager.admin.address |IPC

| |8088 |yarn.resourcemanager.webapp.address |http服务端口

|NodeManager |8040 |yarn.nodemanager.localizer.address |localizer IPC

| |8042 |yarn.nodemanager.webapp.address |http服务端口

| |8041 |yarn.nodemanager.address |NM中container manager的端口

|JobHistory Server |10020 |mapreduce.jobhistory.address |IPC

| |19888 |mapreduce.jobhistory.webapp.address |http服务端口

HBase |Master |60000 |hbase.master.port |IPC

| |60010 |hbase.master.info.port |http服务端口

|RegionServer |60020 |hbase.regionserver.port |IPC

| |60030 |hbase.regionserver.info.port |http服务端口

|HQuorumPeer |2181 |hbase.zookeeper.property.clientPort |HBase-managed ZK mode,使用独立的ZooKeeper集群则不会启用该端口。

| |2888 |hbase.zookeeper.peerport |HBase-managed ZK mode,使用独立的ZooKeeper集群则散余饥不会启用该端口。

| |3888 |hbase.zookeeper.leaderport |HBase-managed ZK mode,使用独立的ZooKeeper集群则不会启用该端口。

Hive |Metastore |9083 |/etc/default/hive-metastore中export PORT=port来更新默认端口 |

|HiveServer |10000 |/etc/hive/conf/hive-env.sh中export HIVE_SERVER2_THRIFT_PORT=port来更新默认端口 |

ZooKeeper |Server |2181 |/etc/zookeeper/conf/zoo.cfg中clientPort=port |对客户端提供服务的端口

| |2888 |/etc/zookeeper/conf/zoo.cfg中server.x=[hostname]:nnnnn[:nnnnn],标蓝部分 |follower用来连接到leader,只在leader上监听该端口。

| |3888 |/etc/zookeeper/conf/zoo.cfg中server.x=[hostname]:nnnnn[:nnnnn],标蓝部分 |用于leader选举的。只在electionAlg是1,2或3(默认)时需要。

所有端口协议均基于TCP。

而特定的Daemon又有特定的URL路径特定相应信息。

更多说明

关于hadoophbase和hadoop hbase hive spark 关系的介绍到此就结束了,不知道你从中找到你需要的信息了吗 ?如果你还想了解更多这方面的信息,记得收藏关注本站。

相关阅读

  • tp-link物联软件(tplink物联软件介绍)

    tp-link物联软件(tplink物联软件介绍)

    在当今数字化时代,物联网技术的应用已经渗透到我们日常生活的方方面面,无论是家居设备、工业生产还是智慧城市都充斥着各类智能设备。而TP-Link作为一家知名的网络设备提供商,也加入了物联网领域,推出了TP-Link物联软件,为用户提供更便捷、...

    2024.04.25 05:22:18作者:intanet.cnTags:tp-link物联软件
  • 对未来人工智能的想象(未来人工智能的想象作文800字)

    对未来人工智能的想象(未来人工智能的想象作文800字)

    简介:未来人工智能技术的发展已经吸引了全世界的目光,我们对于未来人工智能所能够实现的可能性充满了无限的想象。在这篇文章中,我们将探讨未来人工智能技术可能的发展方向和应用场景。一、强大的智能机器人助手随着人工智能技术的不断进步,未来我们可以期...

    2024.04.25 05:11:17作者:intanet.cnTags:对未来人工智能的想象
  • 雪福来赛欧(雪福来赛欧轮到多大型号)

    雪福来赛欧(雪福来赛欧轮到多大型号)

    简介:雪福来赛欧是一家专注于提供IT技术解决方案的公司,致力于为客户提供创新的技术产品和服务,帮助他们打造数字化化转型的未来。多级标题:一、公司介绍二、服务内容三、技术实力四、客户案例一、公司介绍雪福来赛欧成立于2005年,总部位于美国硅谷...

    2024.04.25 05:00:16作者:intanet.cnTags:雪福来赛欧
  • 气象数据分析与可视化(气象数据分析与可视化安全性)

    气象数据分析与可视化(气象数据分析与可视化安全性)

    简介:气象数据分析与可视化是指利用IT技朧对气象数据进行处理、分析和展示的过程。通过对大量的气象数据进行分析和可视化,可以帮助气象学家、气象工作者和其他相关领域的专家更好地理解和预测天气变化,提高灾害预警和气象服务的效率。多级标题:1. 气...

    2024.04.24 23:55:21作者:intanet.cnTags:气象数据分析与可视化
  • 云计算发展现状(云计算发展现状及未来趋势)

    云计算发展现状(云计算发展现状及未来趋势)

    云计算发展现状简介:云计算作为一种新兴的计算模式,已经成为当今IT行业的热门话题。随着云计算技术的发展,越来越多的企业开始将自身的数据和应用迁移到云端,以实现更高效的数据管理和资源利用。本文将详细介绍云计算的发展现状,包括其应用范围、技术特...

    2024.04.24 23:22:34作者:intanet.cnTags:云计算发展现状
  • zookeeper启动一闪而过(zookeeper启动闪退)

    zookeeper启动一闪而过(zookeeper启动闪退)

    # Zookeeper启动一闪而过## 简介Zookeeper是一个开源的分布式协调服务,它为分布式应用程序提供了一个高度可靠的协调服务。在使用Zookeeper的过程中,有时候会遇到Zookeeper启动一闪而过的情况,这个问题经常让开发...

    2024.04.24 21:11:29作者:intanet.cnTags:zookeeper启动一闪而过
  • flink官网(flink官网图)

    flink官网(flink官网图)

    Flink官网Flink是一个开源的流处理框架,旨在解决大规模数据处理和分析的挑战。它提供了高性能的流处理引擎和丰富的流处理API,能够处理实时数据流和批处理作业。Flink框架的设计使得它能够轻松地实现事件驱动的流处理,支持精确一次性处理...

    2024.04.24 19:33:17作者:intanet.cnTags:flink官网
  • teamspark(teamspark火星团介绍)

    teamspark(teamspark火星团介绍)

    团队如何发挥IT技术的作用随着科技的不断发展,IT技术在现代社会中扮演着越来越重要的角色。在一个团队中,充分发挥IT技术的作用可以提高团队的效率和创造力,从而实现更好的工作成果。本文将探讨如何通过IT技术来提升团队的表现。### 1. 有效...

    2024.04.24 19:00:28作者:intanet.cnTags:teamspark