hadoopdistcp（hadoopdistcp没有任务）

by intanet.cn ca 大数据 on 2024-03-18

本篇文章给大家谈谈hadoopdistcp，以及hadoopdistcp没有任务对应的知识点，希望对各位有所帮助，不要忘了收藏本站喔。

本文目录一览：

1、edt使用什么协议来保证hadoop集群安全
2、hadoop distcp 用什么端口
3、如何进入hdfs模式使用hadoop distcp命令
4、win7怎么安装hadoop?谢谢！
5、如何查看hadoop mapreduce 性能
6、如何在win7系统上安装hadoop用cygwin

edt使用什么协议来保证hadoop集群安全

1、需求：有两个集群，网络中节点是互通的，现在要用distcp进行文件迁移，但一个集群是非安全集群，一个是配置了kerberos认证的安全集群，怎么执行呢？

2、前提：两个集群都做了HA配置，所以要通过如下命令查看活动春盯Namenode并获取其IP地址；

HA配置查看活动Namenode：hdfs haadmin -getServiceState nn1或nn2(namenode名)；

3、试验：

目的平台执行Hadoop distcp hdfs://IP:8020/pgw/ hdfs://namenode:8020/pgw/

源平台执行hadoop distcp hdfs://IP:8020/pgw/ hdfs://IP:8020/pgw/

都不行。

分析后，关系 Cross-realm authentication问题，配置core-site.xml 需降低安全配置；

property

nameipc.client.fallback-to-simple-auth-allowed/name

valuetrue/value

/property岩绝

4、解决：在目的平台执行

hadoop distcp -D ipc.client.fallback-to-simple-auth-allowed=true -D dfs.checksum.type=CRC32 webhdfs://namenode IP:50070/data/ /data

命令中直接回退安全扒枣和配置，同时采用webhdfs来传输，不过这个采用restfull机制，有IO阻塞风险。

hadoop distcp -D ipc.client.fallback-to-simple-auth-allowed=true webhdfs://namenode IP:50070/flume/data/ /data/

大文件传输时，去掉校验-D dfs.checksum.type=CRC32就正常。

hadoop distcp 用什么端口

distcp（分布式拷贝）是用于大规模集群内部和集蔽备群之间拷贝的工具。它使用Map/Reduce实现宏侍毁文件分发，错误处理和恢复，以及报告生成。它把文件和目录的列表作为map任务的输入谈困，每个任务会完成源列表中部分文件的拷贝。由于使用了Map/Reduce方法，这个工具在语义和执行上都会有特殊的地方

只要不是要开启服务的，就是随机端口

如何进入hdfs模式使用hadoop distcp命令

hadoop有提供相应禅正的脚本去验证如唯文件目录是否存在渣袭培的：-bash-3.2$hadoopfs-help-test-[defsz]:Answervariousquestionsabout,withresultviaexitstatus.-dreturn0ifisadirectory.-ereturn0ifexists.-freturn0ifisafile.-sreturn0iffileisgreaterthanzerobytesinsize.-zreturn0iffileiszerobytesinsize.else,return1.

win7怎么安装hadoop?谢谢！

环境及软件准备：

win7（64位）

cygwin 1.7.9-1

jdk-6u25-windows-x64.zip

hadoop-0.20.2.tar.gz

1.安装jdk，并置java环境变量包括：JAVA_HOME，PATH，CLASSPATH

2.安装Hadoop，版本为0.20.2，我是直接放到/home目录下，并解压

tar –zxvf

hadoop-0.20.2.tar.gz

3.配置Hadoop，需要修改hadoop的配置文件，它们位于conf子目录下唯清扰，分别是hadoop-env.sh、core-site.xml、hdfs-site.xml

和mapred-site.xml

(1) 修改hadoop-env.sh：

只需要将JAVA_HOME 修改成JDK 的安装目录即可

export

JAVA_HOME=/cygdrive/d/java/jdk1.6.0_25

（注意：路径不能是windows 风格的目录d:\java\jdk1.6.0_25，而是LINUX

风格/cygdrive/d/java/jdk1.6.0_25）

(2) 修改core-site.xml：（指定namenode）

fs.default.name

hdfs://localhost:9000

(3)修改hdfs-site.xml（指定副本为1）

dfs.replication

(4) 修改mapred-site.xml （指定jobtracker）

mapred.job.tracker

localhost:9001

4.验证安装是否成功，并运指旦行Hadoop

(1) 验证安装

$ bin/hadoop

Usage: hadoop [--config confdir] COMMAND

where COMMAND is one of:

namenode -format format the DFS filesystem

secondarynamenode run the DFS secondary namenode

namenode run the DFS namenode

datanode run a DFS datanode

dfsadmin run a DFS admin client

mradmin run a Map-Reduce admin client

fsck run a DFS filesystem checking utility

fs run a generic filesystem user client

balancer run a cluster balancing utility

jobtracker run the MapReduce job Tracker node

pipes run a Pipes job

tasktracker run a MapReduce task Tracker node

job manipulate MapReduce jobs

queue get information regarding JobQueues

version print the version

jar run a jar file

distcp copy file or directories recursively

archive -archiveName NAME * create a hadoop archive

daemonlog get/正改set the log level for each daemon

CLASSNAME run the class named CLASSNAME

Most commands print help when invoked w/o parameters.

(2) 格式化并启动Hadoop

bin/hadoop namenode –format

bin/start-all.sh

(3) 查看Hadoop

命令行查看：

$ jps

1608 NameNode

6572 Jps

6528 JobTracker

（注意：win7下cygwin中DateNode和TaskTracker进程是无法显示的，好像是cygwin的问题）

如何查看hadoop mapreduce 性能

1) 优化map,reduce任务运行的数量

症状：

每个 map 或 reduce 任务都在30-40秒内结束。一个大job没有使用上所有集群中的可用槽位。在大部分mapper和reducer都订好运行计划后，1到2个仍在pending状态直到最后才单独运行。诊断:优化map和reduce的任务是非常重要但是经常被忽视，这里介绍几个我常用的相关设置方法：

如果每个任务只执行30-40秒就结束，请减少总的task数量。Task的基本设置和计划本身会消耗几秒钟的时间。所以如果Task执行非常快的话，时间就都浪费在准备Task上了。也可以开启JVM的reuse功能来减少建立task的基本开销。如果job要处理超过1TB的数据，可以考虑增加输入数据的块Block的大小从256MB到512MB。这样也会减小需要运行的Task数。可以通过如下命令改变数据块大小：hadoop distcp -Ddfs.block.size=$[256*1024*1024] /path/to/inputdata /path/to/inputdata-with-largeblocks.执行完该命令就可以清除原来的文件了。在保证每个任务执行都超过30-40秒后，可以增加mapper task为mapper slot(可以执行mapper 机器)的整数倍，如果你有100个可以运行Map任务的节点，尽量不要运行101个Map Task，第101个Map task 会在第一批100个Map任务执行完之后才执行，这点主要针对的是小型集群和小型任务。

不要计划执行太多的Reduce任务，对于大多数任务，我们建议Reduce任务数要等于或小于集群中可运行Reduce任务的节点数。

性能测试:

我使用一个参数-Dmapred.max.split.size=$[16*1024*1024] 来展示设置了过多任务的wordcount程序。这样会产生2640个而不是默认的360个任务来执行该程序。当以这答世种配置运行时单个的任务平均只用9秒，在JobTracker的监控页面上可以看到正在map任务数在0到24之间波动，整个Job花了17分52秒，是原来配置的2倍。

2) 在集群上使用 LZO 压缩插件

症状：

*应用于中间数据LZO压缩始终是个好方法。

*MapReduce 任务输出文件尺寸很大。

*在任务运行时Slave节点上top和iostat中显示高iowait。

诊断：

几乎任何产生大量map输出的MapReduce任务都能从LZO压缩算法受益。虽然LZO增加了一些CPU的负载，但是shuffle阶段减少的大量磁盘IO操作会把时间完全节省回来。

当job要处理大量数据时，LZO压缩也可以增加旦举答输出方面的的性能。在默认的3份复制配置下，每1GB压缩省下的空间都相当于节省了3GB的IO写操作。

要开启LZO压缩，请见另一篇文章，

记得要把mapred.compress.map.output设为true。

性能对比:

禁用LZO只在测试中轻微延长了运行时间。但是文件写出量计数FILE_BYTES从3.5G增长到9.2G，显示出62%的IO优化效果，在一个job独自运行的环境下，IO并不是瓶颈，所以时间缩短并不明显。当在高任务并发的集群上运行时，60%的IO减少会带来明显的速模慧度提升。

3) 正确配置Hadoop集群

症状：

*当所有的MapReduce任务栏位都在运行任务时，用top命令观察到slave节点仍然相对的空闲。

*用top观察到内核进程RAID(mdX_raid*)或pdflush占用大量CPU

*Linux平均负载经常高于系统CPU数x2

*执行任务时，Linux平均负载低于系统CPU数

*节点上超过几MB的SWAP使用量

诊断：

[img]

如何在win7系统上安装hadoop用cygwin

win7的64位系统安装cygwin：1、在官网上下载cygwin win64位安装包；2、下明蔽载完毕后，双击安装包，安装cygwin；3、选择"installfrominternet"，点击下一步；和历4、选择安装目录，点击下一步；5、选择包的下载存放目录，点击下一步；6、选择“directconnection”，点击下一步激棚州；7、选择在线下载安装的镜像站，点击下一步；8、选择需要安装的包，点击下一步；9、开始安装，安装完毕，点完成即可。

关于hadoopdistcp和hadoopdistcp没有任务的介绍到此就结束了，不知道你从中找到你需要的信息了吗？如果你还想了解更多这方面的信息，记得收藏关注本站。

htmljavascript（htmljavascript最大值）仓库数据分析报表怎么做（仓库数据分析方法都有哪些）

hadoopdistcp（hadoopdistcp没有任务）

edt使用什么协议来保证hadoop集群安全

hadoop distcp 用什么端口

如何进入hdfs模式使用hadoop distcp命令

win7怎么安装hadoop?谢谢！

如何查看hadoop mapreduce 性能

如何在win7系统上安装hadoop用cygwin

最近发表

文章归档

标签列表

hadoopdistcp（hadoopdistcp没有任务）

edt使用什么协议来保证hadoop集群安全

hadoop distcp 用什么端口

如何进入hdfs模式 使用hadoop distcp命令

win7怎么安装hadoop?谢谢！

如何查看hadoop mapreduce 性能

如何在win7系统上安装hadoop用cygwin

相关阅读

东盟人工智能大会（2019年举办的中国东盟人工智能峰会签约仪式总投资）

数据仓库建设方法论（数据仓库建设与应用的案例）

北斗物联（北斗物联网最新消息）

关于sparkdataframefilter的信息

人工智能桌面（人工智能桌面下载）

简述下云计算的概念（请简要说明云计算的基本概念）

最近发表

文章归档

标签列表

如何进入hdfs模式使用hadoop distcp命令