hadoopdistcp(hadoopdistcp没有任务)
本篇文章给大家谈谈hadoopdistcp,以及hadoopdistcp没有任务对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。
本文目录一览:
- 1、edt使用什么协议来保证hadoop集群安全
- 2、hadoop distcp 用什么端口
- 3、如何进入hdfs模式 使用hadoop distcp命令
- 4、win7怎么安装hadoop?谢谢!
- 5、如何查看hadoop mapreduce 性能
- 6、如何在win7系统上安装hadoop用cygwin
edt使用什么协议来保证hadoop集群安全
1、需求:有两个集群,网络中节点是互通的,现在要用distcp进行文件迁移,但一个集群是非安全集群,一个是配置了kerberos认证的安全集群,怎么执行呢?
2、前提:两个集群都做了HA配置,所以要通过如下命令查看活动春盯Namenode并获取其IP地址;
HA配置查看活动Namenode:hdfs haadmin -getServiceState nn1或nn2(namenode名);
3、试验:
目的平台执行Hadoop distcp hdfs://IP:8020/pgw/ hdfs://namenode:8020/pgw/
源平台执行hadoop distcp hdfs://IP:8020/pgw/ hdfs://IP:8020/pgw/
都不行。
分析后,关系 Cross-realm authentication问题,配置core-site.xml 需降低安全配置;
property
nameipc.client.fallback-to-simple-auth-allowed/name
valuetrue/value
/property岩绝
4、解决:在目的平台执行
hadoop distcp -D ipc.client.fallback-to-simple-auth-allowed=true -D dfs.checksum.type=CRC32 webhdfs://namenode IP:50070/data/ /data
命令中直接回退安全扒枣和配置,同时采用webhdfs来传输,不过这个采用restfull机制,有IO阻塞风险。
hadoop distcp -D ipc.client.fallback-to-simple-auth-allowed=true webhdfs://namenode IP:50070/flume/data/ /data/
大文件传输时,去掉校验-D dfs.checksum.type=CRC32就正常。
hadoop distcp 用什么端口
distcp(分布式拷贝)是用于大规模集群内部和集蔽备群之间拷贝的工具。 它使用Map/Reduce实现宏侍毁文件分发,错误处理和恢复,以及报告生成。 它把文件和目录的列表作为map任务的输入谈困,每个任务会完成源列表中部分文件的拷贝。 由于使用了Map/Reduce方法,这个工具在语义和执行上都会有特殊的地方
只要不是要开启服务的,就是随机端口
如何进入hdfs模式 使用hadoop distcp命令
hadoop有提供相应禅正的脚本去验证如唯文件目录是否存在渣袭培的:-bash-3.2$hadoopfs-help-test-[defsz]:Answervariousquestionsabout,withresultviaexitstatus.-dreturn0ifisadirectory.-ereturn0ifexists.-freturn0ifisafile.-sreturn0iffileisgreaterthanzerobytesinsize.-zreturn0iffileiszerobytesinsize.else,return1.
win7怎么安装hadoop?谢谢!
环境及软件准备:
win7(64位)
cygwin 1.7.9-1
jdk-6u25-windows-x64.zip
hadoop-0.20.2.tar.gz
1.安装jdk,并置java环境变量包括:JAVA_HOME,PATH,CLASSPATH
2.安装Hadoop,版本为0.20.2,我是直接放到/home目录下,并解压
tar –zxvf
hadoop-0.20.2.tar.gz
3.配置Hadoop,需要修改hadoop的配置文件,它们位于conf子目录下唯清扰,分别是hadoop-env.sh、core-site.xml、hdfs-site.xml
和mapred-site.xml
(1) 修改hadoop-env.sh:
只需要将JAVA_HOME 修改成JDK 的安装目录即可
export
JAVA_HOME=/cygdrive/d/java/jdk1.6.0_25
(注意:路径不能是windows 风格的目录d:\java\jdk1.6.0_25,而是LINUX
风格/cygdrive/d/java/jdk1.6.0_25)
(2) 修改core-site.xml:(指定namenode)
fs.default.name
hdfs://localhost:9000
(3)修改hdfs-site.xml(指定副本为1)
dfs.replication
1
(4) 修改mapred-site.xml (指定jobtracker)
mapred.job.tracker
localhost:9001
4.验证安装是否成功,并运指旦行Hadoop
(1) 验证安装
$ bin/hadoop
Usage: hadoop [--config confdir] COMMAND
where COMMAND is one of:
namenode -format format the DFS filesystem
secondarynamenode run the DFS secondary namenode
namenode run the DFS namenode
datanode run a DFS datanode
dfsadmin run a DFS admin client
mradmin run a Map-Reduce admin client
fsck run a DFS filesystem checking utility
fs run a generic filesystem user client
balancer run a cluster balancing utility
jobtracker run the MapReduce job Tracker node
pipes run a Pipes job
tasktracker run a MapReduce task Tracker node
job manipulate MapReduce jobs
queue get information regarding JobQueues
version print the version
jar run a jar file
distcp copy file or directories recursively
archive -archiveName NAME * create a hadoop archive
daemonlog get/正改set the log level for each daemon
or
CLASSNAME run the class named CLASSNAME
Most commands print help when invoked w/o parameters.
(2) 格式化并启动Hadoop
bin/hadoop namenode –format
bin/start-all.sh
(3) 查看Hadoop
命令行查看:
$ jps
1608 NameNode
6572 Jps
6528 JobTracker
(注意:win7下cygwin中DateNode和TaskTracker进程是无法显示的,好像是cygwin的问题)
如何查看hadoop mapreduce 性能
1) 优化map,reduce任务运行的数量
症状:
每个 map 或 reduce 任务都在30-40秒内结束。一个大job没有使用上所有集群中的可用槽位。在大部分mapper和reducer都订好运行计划后,1到2个仍在pending状态直到最后才单独运行。 诊断:优化map和reduce的任务是非常重要但是经常被忽视,这里介绍几个我常用的相关设置方法:
如果每个任务只执行30-40秒就结束,请减少总的task数量。Task的基本设置和计划本身会消耗几秒钟的时间。所以如果Task执行非常快的话,时间就都浪费在准备Task上了。也可以开启JVM的reuse功能来减少建立task的基本开销。如果job要处理超过1TB的数据,可以考虑增加输入数据的块Block的大小从256MB到512MB。这样也会减小需要运行的Task数。可以通过如下命令改变数据块大小:hadoop distcp -Ddfs.block.size=$[256*1024*1024] /path/to/inputdata /path/to/inputdata-with-largeblocks.执行完该命令就可以清除原来的文件了。在保证每个任务执行都超过30-40秒后,可以增加mapper task为mapper slot(可以执行mapper 机器)的整数倍,如果你有100个可以运行Map任务的节点,尽量不要运行101个Map Task,第101个Map task 会在第一批100个Map任务执行完之后才执行,这点主要针对的是小型集群和小型任务。
不要计划执行太多的Reduce任务,对于大多数任务,我们建议Reduce任务数要等于或小于集群中可运行Reduce任务的节点数。
性能测试:
我使用一个参数-Dmapred.max.split.size=$[16*1024*1024] 来展示设置了过多任务的wordcount程序。这样会产生2640个而不是默认的360个任务来执行该程序。当以这答世种配置运行时单个的任务平均只用9秒,在JobTracker的监控页面上可以看到正在map任务数在0到24之间波动,整个Job花了17分52秒,是原来配置的2倍。
2) 在集群上使用 LZO 压缩插件
症状:
*应用于中间数据LZO压缩始终是个好方法。
*MapReduce 任务输出文件尺寸很大。
*在任务运行时Slave节点上top和iostat中显示高iowait。
诊断:
几乎任何产生大量map输出的MapReduce任务都能从LZO压缩算法受益。虽然LZO增加了一些CPU的负载,但是shuffle阶段减少的大量磁盘IO操作会把时间完全节省回来。
当job要处理大量数据时,LZO压缩也可以增加旦举答输出方面的的性能。在默认的3份复制配置下,每1GB压缩省下的空间都相当于节省了3GB的IO写操作。
要开启LZO压缩,请见另一篇文章,
记得要把mapred.compress.map.output设为true。
性能对比:
禁用LZO只在测试中轻微延长了运行时间。但是文件写出量计数FILE_BYTES从3.5G增长到9.2G,显示出62%的IO优化效果,在一个job独自运行的环境下,IO并不是瓶颈,所以时间缩短并不明显。当在高任务并发的集群上运行时,60%的IO减少会带来明显的速模慧度提升。
3) 正确配置Hadoop集群
症状:
*当所有的MapReduce任务栏位都在运行任务时,用top命令观察到slave节点仍然相对的空闲。
*用top观察到内核进程RAID(mdX_raid*)或pdflush占用大量CPU
*Linux平均负载经常高于系统CPU数x2
*执行任务时,Linux平均负载低于系统CPU数
*节点上超过几MB的SWAP使用量
诊断:
[img]如何在win7系统上安装hadoop用cygwin
win7的64位系统安装cygwin:1、在官网上下载cygwin win64位安装包;2、下明蔽载完毕后,双击安装包,安装cygwin;3、选择"installfrominternet",点击下一步;和历4、选择安装目录,点击下一步;5、选择包的下载存放目录,点击下一步;6、选择“directconnection”,点击下一步激棚州;7、选择在线下载安装的镜像站,点击下一步;8、选择需要安装的包,点击下一步;9、开始安装,安装完毕,点完成即可。
关于hadoopdistcp和hadoopdistcp没有任务的介绍到此就结束了,不知道你从中找到你需要的信息了吗 ?如果你还想了解更多这方面的信息,记得收藏关注本站。