Hadoop之HDFS的集群之间的数据复制归档机制和安全模式
1.不同集群之间的数据复制
在我们实际工作当中,极有可能会遇到将测试集群的数据拷贝到生产环境集群,或者将生产环境集群的数据拷贝到测试集群,那么就需要我们在多个集群之间进行数据的 远程拷贝 ,hadoop自带也有命令可以帮我们实现这个功能。1.1.集群内部文件拷贝scpcd /export/softwares/ scp -r jdk-8u141-linux-x64.tar.gz root@node2:/export/ 1.2.跨集群之间的数据拷贝distcpbin/hadoop distcp hdfs://node1:8020/jdk-8u141-linux-x64.tar.gz hdfs://cluster2:9000/ 2.Archive档案的使用
HDFS并不擅长存储小文件,因为每个文件最少一个block,每个block的元数据都会在NameNode占用内存,如果存在大量的小文件,它们会吃掉NameNode节点的大量 内存 。
Hadoop Archives 可以有效的处理以上问题,它可以把多个文件归档 成为一个文件,归档成一个文件后还可以透明的访问每一个文件。2.1.如何创建ArchiveUsage: hadoop archive -archiveName name -p *
其中-archiveName是指要创建的存档的名称。比如test.har,archive的名字的扩展名应该是*.har。
-p参数指定文件存档文件(src)的相对路径。
举个例子:-p /foo/bar a/b/c e/f/g
这里的/foo/bar是a/b/c与e/f/g的父路径,
所以完整路径为/foo/bar/a/b/c与/foo/bar/e/f/g
例如:如果你只想存档一个目录/input下的所有文件:
hadoop archive -archiveName test.har -p /input /outputdir
这样就会在/outputdir目录下创建一个名为test.har的存档文件。 2.2.如何查看Archive
首先我们来看下创建好的har文件。使用如下的命令: hadoop fs -ls /outputdir/test.har
这里可以看到har文件包括:两个索引文件,多个part文件(本例只有一个)以及一个标识成功与否的文件。 part 文件是多个原文件的集合,根据index文件去找到原文件。
例如上述的三个小文件1.txt 2.txt 3.txt内容分别为1,2,3。进行archive操作之后,三个小文件就归档到test.har里的part-0一个文件里。
archive作为文件系统层暴露给外界。所以所有的fs shell命令都能在archive上运行,但是要使用不同的URI。 Hadoop Archives 的URI是:har://scheme-hostname:port/archivepath/fileinarchive
scheme-hostname格式为hdfs-域名:端口,如果没有提供scheme-hostname,它会使用默认的文件系统。这种情况下URI是这种形式: har:///archivepath/fileinarchive
如果用har uri去访问的话,索引、标识等文件就会
隐藏 起来,只显示创建档案之前的原文件:
2.3.如何解压Archive
按顺序解压存档(串行): Hadoop fs -cp har:///user/zoo/foo.har/dir1 hdfs:/user/zoo/newdir
要并行解压存档,请使用DistCp: hadoop distcp har:///user/zoo/foo.har/dir1 hdfs:/user/zoo/newdir 2.4.Archive注意事项
1.Hadoop archives是特殊的档案格式。一个Hadoop archive对应一个文件系统目录。Hadoop archive的扩展名是*.har;
2.创建archives本质是运行一个Map/Reduce任务,所以应该在Hadoop集群上运行创建档案的命令;
3.创建archive文件要消耗和原文件一样多的硬盘空间;
4.archive文件不支持压缩,尽管archive文件看起来像已经被压缩过;
5.archive文件一旦创建就无法改变,要修改的话,需要创建新的archive文件。事实上,一般不会再对存档后的文件进行修改,因为它们是定期存档的,比如每周或每日;
6.当创建archive时,源文件不会被更改或删除; 3. HDFS安全模式3.1.安全模式概述
安全模式是HDFS所处的一种特殊状态,在这种状态下,文件系统只接受读数据请求,而不接受删除、修改等变更请求,是一种 保护机制 ,用于保证集群中的数据块的安全性。
在NameNode主节点启动时 ,HDFS首先进入安全模式,集群会开始检查数据块的完整性。DataNode在启动的时候会向namenode汇报可用的block信息,当整个系统达到安全标准时,HDFS自动离开 安全模式。
假设我们设置的副本数(即参数dfs.replication)是5,那么在Datanode上就应该有5个副本存在,假设只存在3个副本,那么比例就是3/5=0.6。在配置文件hdfs-default.xml中定义了一个最小的副本的副本率(即参数dfs.namenode.safemode.threshold-pct)0.999。
我们的副本率0.6明显小于0.99,因此系统会自动的复制副本到其他的DataNode,使得副本率不小于0.999.如果系统中有8个副本,超过我们设定的5个副本,那么系统也会删除多余的3个副本。
如果HDFS处于安全模式下,不允许HDFS客户端进行任何修改文件的操作,包括上传文件,删除文件,重命名,创建文件夹,修改副本数等操作。3.2.安全模式配置
与安全模式相关主要配置在hdfs-site.xml文件中,主要有下面几个属性:
dfs.namenode.replication.min: 每个数据块最小副本数量,默认为1. 在上传文件时,达到最小副本数,就认为上传是成功的。
dfs.namenode.safemode.threshold-pct: 达到最小副本数的数据块的百分比。默认为0.999f。当小于这个比例,那就将系统切换成安全模式,对数据块进行复制;当大于该比例时,就离开安全模式,说明系统有足够的数据块副本数,可以对外提供服务。小于等于0意味不进入安全模式,大于1意味一直处于安全模式。
dfs.namenode.safemode.min.datanodes: 离开安全模式的最小可用datanode数量要求,默认为0.也就是即使所有datanode都不可用,仍然可以离开安全模式。
dfs.namenode.safemode.extension: 当集群可用block比例,可用datanode都达到要求之后,如果在extension配置的时间段之后依然能满足要求,此时集群才离开安全模式。单位为毫秒,默认为30000.也就是当满足条件并且能够维持30秒之后,离开安全模式。 这个配置主要是对集群稳定程度做进一步的确认。避免达到要求后马上又不符合安全标准。
总结一下,要离开安全模式,需要满足以下条件:
1)达到副本数量要求的block比例满足要求;
2)可用的datanode节点数满足配置的数量要求;
3) 1、2两个条件满足后维持的时间达到配置的要求
3.安全模式命令
手动进入安全模式 hdfs dfsadmin -safemode enter
手动进入安全模式对于集群维护或者升级的时候非常有用,因为这时候HDFS上的数据是只读的。手动退出安全模式可以用下面命令: hdfs dfsadmin -safemode leave
40岁后心脏开始变老!一碗鸡蛋羹,益气又活血,让心更年轻心脏在人们40岁之后就会逐渐进入衰退期,一些不良的生活习惯可能还会导致心脏提前衰老,超过实际的年龄。有一项检查可以更直观地反映出心脏的年龄,那就是射血分数。它是判断心力衰竭的重要指
拉塞尔索要5年1。8亿,湖人续约谈判陷入僵局,詹姆斯恐又要被坑湖人真的是多事之秋,在詹姆斯因伤可能缺席剩余常规赛的情况下,最近战绩本来就有点磕磕绊绊,季后赛形势比较危险。球队重磅引进的新援拉塞尔,已经连续多场因伤高挂免战牌。在伤病期节,湖人已
CBA战报客场征战手感冰凉上海男篮大比分不敌辽宁队3月8日,20222023赛季中国男子篮球职业联赛(CBA联赛)常规赛第32轮全面打响,上海久事大鲨鱼男篮作客挑战卫冕冠军辽宁本钢队。本场比赛,辽宁队大将郭艾伦缺阵。开局阶段,上海
本场比赛参与有效进攻榜梅西7次最多,格雷茨卡基米希第二直播吧3月9日讯在北京时间今天凌晨进行的欧冠18决赛次回合比赛中,拜仁主场2比0击败巴黎,以3比0的总比分晋级,Opta统计了球员本场比赛参与有效进攻(以射门告终)的次数,并列出榜
理查利森不满不明白为什么替补,这里没有傻瓜我想要出场比赛直播吧3月9日讯热刺00米兰,总比分01无缘欧冠八强。本场比赛理查利森第70分钟替补登场,赛后球员接受TNT体育采访时表达了不满。理查利森这也是我不明白的(作为替补),一切此前都很
(体育)足球欧冠AC米兰晋级八强当日,在英国伦敦举行的20222023赛季欧洲足球冠军联赛八分之一决赛次回合比赛中,意甲AC米兰队客场以0比0战平英超托特纳姆热刺队,从而以1比0的总比分晋级八强。3月8日,AC米
巅峰杜兰特可以单换巅峰科比吗?这显然是一个仁者见仁智者见智的问题,两人毫无疑问两人都是历史级别的巨星,也是历史级别的单打好手,两人都取得了伟大的成就,更巧的是两人都获得2FMVP1MVP。头条尺哥说个球凯文杜兰
你有睡眠信用卡吗?您尾号7714卡即将产生年费,为避免影响使用,请确保卡片联机账户余额充足,详询最近,手机上的这样一条短信引起了我的格外注意。刚开始的时候以为是个营销短信,后来电话一询问还是个真事。
出境团队游重启满一个月,这些线路持续升温!来源央视财经2月6日,我国出境团队旅游业务重启,到今天已满一个月,目前出境游市场情况如何?哪些目的地更热门?在北京三里屯的一家旅行社门店记者了解到,随着近期出境游热度的升温,前往门
三月芳菲因她而美谷城法院开展三八妇女节春游活动Spring大好春光人间最美三月天,春花烂漫展新颜。3月7日,在第113个三八国际劳动妇女节来临之际,为了凝聚她力量,丰富巾帼女将的文化生活,谷城法院组织女干警开展生态春游活动。首
英雄的理想对老百姓来说可能是灾难原创老肖(一剑的江湖)唐朝,安史之乱。战乱四起,烽火连天,地动山摇,生灵涂炭。战争,给人民带来沉重灾难,却造就了一些大英雄。张巡,便是其中之一。张巡出生于唐中宗景龙二年(708年)
二手手机交易平台靠谱吗?不要买二手的手机,现在买个新手机也不要多少钱,二手的手机硬件方面肯定不如全新的,软件还有可能被绑定病毒程序,售后也没保障二手平台还真不知道,如果是去现场买比较好像华强北啊,或者是别
四川理科18年高考预估650分能读上海什么学校?根据你的提供的预估分数,我给出相应的一些学校供你选择!!首先我们看下四川近几年的录取分数线,在预测今年的录取分数线如下图可以你看出你高出分数线一百多分,是个不错的分数!!相信可以考
35岁女生怎样穿出优雅气质又不显老气?感谢邀请。35岁正是人生最美好的时光,事业进入稳定期,也有了家庭,这个年纪的女生在穿搭方面,要讲究的是精致优雅。如何穿出精致优雅气质又不会太老气?小柒搜罗了ins上最近很火的时尚博
如何才能把自己变得有气质?不请自来哈。说到气质,大家都以为是一个很玄乎的东西,气质不仅仅只体现在内在修养和学识上,更体现在外表气场上,墨羽有个朋友,学历不高,但穿衣打扮浑身上下透着一股淡然自若的优雅气质。有
鱼头汤怎么做才不腥,汤奶白色?谢邀回答。鱼头汤怎么做才不腥,汤奶白色?题主问的应该是奶汤鱼头中的做法与技巧问题。这看似一个问题,实则是两个问题,下面把我的经验详细分享一下。鱼头汤怎么做才不腥?鱼头汤一般采用清炖
皮裙正当红,如何用皮质单品穿搭出时髦美感?这样穿着搭配就很时尚很时髦。这位小姐姐的皮肤白嫩穿着黑色一字细高跟,与黑色皮短裙搭配协调。有身高有魅力有身材。性感又时尚的搭配让美女变得气质脱俗。馆主来了,我是無月,我来回答这个问
得体优雅的职业装应该怎么搭配?大热的韩剧迷雾由实力派演员金南珠主演,她在剧中饰演冷血无情的职场女强人顶尖主播高惠兰。剧中,金南珠的日常穿搭引起了大家的广泛注意,这种职场化的穿搭也为很多刚进职场的小白们,提供了很
衣服真的可以让一个人的气质蜕变吗?是的,哈佛大学某某教授做个实验,衣服是人的外在特征,如果穿的得体,气质脱变!人们对服饰的核心三要素无外乎是SRP原则,S是风格StyleR是Role身份P是每个人的生物物理条件Pe
你认为中国足球什么时候才能崛起?男足最需要的就是一种精神,一种拼搏奋斗为国争光的精神。但我们的男孩子从小就没这种意识,戎者说缺乏这种意识,长大了能有吗?也就是缺少我们所谓的男子汉气魄。如果男人没有男子汉精神,他能
CCTV5连续直播3场世界杯亚预赛!国足VS阿曼,李铁能否从善如流?比赛肯定是很艰苦,阿曼能淘汰日本,就靠防守反击。李铁的用人思路比较保守和固执。本场比赛,我觉着适当的改变阵容,王刚于大宝就不要再用了,上半场可以适当用一些年轻球员吴兴涵尹鸿博等冲一
iPhone11至今畅销,四千多的4G手机,为啥有人愿意买?文小伊评科技一台没有高刷,不支持5G,不足FHD分辨率LCD屏,充电头都不送的iPhone11竟然是2020年最畅销的手机,单品销量高达6480万台,大幅超越其他竞争对手,安卓手机