精准猎取科技资讯,天堂视频在线观看,高效阅读科技新闻_黄色av网站在线免费观看_科技猎

螞蟻絆倒大象,不起眼的小文件竟拖了Hadoop大數據的后

我是創始人李巖:很抱歉!給自己產品做個廣告,點擊進來看看。  

HDFS作為Hadoop生態系統的分布式文件系統,它被設計用來存儲海量數據,特別是TB、PB量級別的數據。它的設計的初衷也是存儲大文件,而如果HDFS上存在大量的小文件,會對系統性能帶來嚴重的問題。本文想跟大家聊下小文件的處理。

本文的小文件是指那些大小比HDFS的block (Hadoop 2.x的默認大小128MB)小的多的文件。在HDFS中,文件元信息,例如位置、大小、分塊信息等這些存儲在Namenode的內存中,每一個object占用150 bytes的內存。文件個數越多相應的也會占用Namenode更多的內存。何況HDFS主要是為了流式的訪問大文件而設計的,讀取眾多的小文件顯然也是非常低效的。

▌Hadoop小文件的3類常見情況的處理

1、HDFS中存儲包含了大量小文件

現象:在HDFS上已經存在了大量的小文件和目錄。

方案:通過調用HDFS的sync()方法和append()方法,將小文件和目錄每隔一定時間生成一個大文件,或者可以通過寫程序來合并這些小文件。

2、MapReduce的輸入包含大量小文件

現象:輸入文件中存在大量的小文件

MapReduce程序的Map任務(task)一次可以處理一個塊(block)大小的輸入數據(默認使用FileInputFormat)。如果一個輸入文件的大小大于block,那么會拆成兩個或多個task進行處理;如果小于block,也會用一個task處理該文件。需要處理的數據如果分散存儲在許多小文件中,就會產生大量的map task,如果小文件個數非常多,這會使處理時間變的很慢。

方案:有3種

1)Hadoop Archive:

Hadoop Archive是一個高效地將小文件放入HDFS塊中的文件存檔工具,它能夠將許多小文件打包成一個HAR文件,這樣會同時減少Namenode的內存使用。

2)Sequence File:

Sequence File由一系列的二進制key/value組成,如果key為小文件名,value為文件內容,則可以將大批小文件合并成一個大文件。

1)和2)這里不做介紹,可以參考 ??

http://blog.cloudera.com/blog/2009/02/the-small-files-problem

3)CombineFileInputFormat:

Hadoop有一個專門的類CombineFileInputFormat?來處理小文件,它根據一定的規則,將HDFS上多個小文件合并到一個InputSplit中,同時啟動適量的Map來處理這里面的文件,以減少MR整體作業的運行時間。CombineFileInputFormat類繼承FileInputFormat,主要重寫了ListgetSplits(JobContext var1)方法,我們可以設置mapreduce.input.fileinputformat.split.minsize.per.node、mapreduce.input.fileinputformat.split.minsize.per.rack和mapreduce.input.fileinputformat.split.maxsize?參數的設置來合并小文件。其中mapreduce.input.fileinputformat.split.maxsize參數至關重要,如果沒有設置這個參數(默認沒設置),那么同一個機架上的所有小文件將組成一個InputSplit,最終由一個Map Task來處理。如果設置了這個參數,那么同一個節點(node)上的文件將會組成一個InputSplit。

InputSplit包含的HDFS塊信息存儲在CombineFileSplit?類中。該類包含了每個塊文件的路徑、起始偏移量、相對于原始偏移量的大小和這個文件的存儲節點。CombineTextInputFormat告訴MR程序如何讀取組合的InputSplit,具體如何解析CombineFileSplit中的文件主要在CombineFileRecordReader中實現。該類封裝了TextInputFormat的RecordReader,并對CombineFileSplit中的多個文件循環遍歷并讀取其中的內容。

樣例代碼如下: 螞蟻絆倒大象,不起眼的小文件竟拖了Hadoop大數據的后 日志輸出:
可以從日志中很清楚的看出input文件數為Total input paths to process : 152,通過CombineFileInputFormat處理后splits為mapreduce.JobSubmitter: number of splits:1,map數為Launched map tasks=1。可以修改mapreduce.input.fileinputformat.split.maxsize參數,觀察Map Task的個數變化。

3、Hive小文件問題

現象1:?hive輸入的文件過多

方案:設置mapper?輸入文件合并參數

螞蟻絆倒大象,不起眼的小文件竟拖了Hadoop大數據的后

現象2:hive執行中間過程生成的文件過多

方案:設置中間過程合并參數,盡量避免小文件 螞蟻絆倒大象,不起眼的小文件竟拖了Hadoop大數據的后

現象3:hive輸出結果生成的文件過多

方案:一種是調整reducer個數,另一種是調整reducer大小 螞蟻絆倒大象,不起眼的小文件竟拖了Hadoop大數據的后

/ 參考文章 /

1、https://hadoop.apache.org/docs/r2.7.1/hadoop-project-dist/hadoop-hdfs/HdfsDesign.html

2、https://cwiki.apache.org/confluence/display/Hive/Configuration+Properties

3、http://blog.cloudera.com/blog/2009/02/the-small-files-problem/

隨意打賞

大數據展示大數據采集
提交建議
微信掃一掃,分享給好友吧。
主站蜘蛛池模板: 私人别墅家庭影院系统_家庭影院音响_家庭影院装修设计公司-邦牛影音 | 手表腕表维修保养鉴定售后服务中心网点 - 名表维修保养 | 磁力去毛刺机_去毛刺磁力抛光机_磁力光饰机_磁力滚抛机_精密金属零件去毛刺机厂家-冠古科技 | 卫生纸复卷机|抽纸机|卫生纸加工设备|做卫生纸机器|小型卫生纸加工需要什么设备|卫生纸机器设备多少钱一台|许昌恒源纸品机械有限公司 | 地磅-地秤-江阴/无锡地磅-江阴天亿计量设备有限公司_ | 400电话_400电话申请_866元/年_【400电话官方业务办理】-俏号网 3dmax渲染-效果图渲染-影视动画渲染-北京快渲科技有限公司 | 罗茨真空机组,立式无油往复真空泵,2BV水环真空泵-力侨真空科技 | 武汉不干胶印刷_标签设计印刷_不干胶标签印刷厂 - 武汉不干胶标签印刷厂家 | 知名电动蝶阀,电动球阀,气动蝶阀,气动球阀生产厂家|价格透明-【固菲阀门官网】 | 深圳离婚律师咨询「在线免费」华荣深圳婚姻律师事务所专办离婚纠纷案件 | 意大利Frascold/富士豪压缩机_富士豪半封闭压缩机_富士豪活塞压缩机_富士豪螺杆压缩机 | 牛皮纸|牛卡纸|进口牛皮纸|食品级牛皮纸|牛皮纸厂家-伽立实业 | 无尘烘箱_洁净烤箱_真空无氧烤箱_半导体烤箱_电子防潮柜-深圳市怡和兴机电 | 档案密集架,移动密集架,手摇式密集架,吉林档案密集架-厂家直销★价格公道★质量保证 | 烟台条码打印机_烟台条码扫描器_烟台碳带_烟台数据采集终端_烟台斑马打印机-金鹏电子-金鹏电子 | 超声波_清洗机_超声波清洗机专业生产厂家-深圳市好顺超声设备有限公司 | 石家庄网站建设|石家庄网站制作|石家庄小程序开发|石家庄微信开发|网站建设公司|网站制作公司|微信小程序开发|手机APP开发|软件开发 | 铝单板_铝窗花_铝单板厂家_氟碳包柱铝单板批发价格-佛山科阳金属 | 创富网-B2B网站|供求信息网|b2b平台|专业电子商务网站 | 软装设计-提供软装装饰和软装配饰及软装陈设的软装设计公司 | 挤塑板-XPS挤塑板-挤塑板设备厂家[襄阳欧格] | 环氧乙烷灭菌器_压力蒸汽灭菌器_低温等离子过氧化氢灭菌器 _低温蒸汽甲醛灭菌器_清洗工作站_医用干燥柜_灭菌耗材-环氧乙烷灭菌器_脉动真空压力蒸汽灭菌器_低温等离子灭菌设备_河南省三强医疗器械有限责任公司 | 加盟店-品牌招商加盟-创业项目商机平台| U拓留学雅思一站式服务中心_留学申请_雅思托福培训 | 箱式破碎机_移动方箱式破碎机/价格/厂家_【华盛铭重工】 | 电机修理_二手电机专家-河北豫通机电设备有限公司(原石家庄冀华高压电机维修中心) | 真空搅拌机-行星搅拌机-双行星动力混合机-广州市番禺区源创化工设备厂 | 电动卫生级调节阀,电动防爆球阀,电动软密封蝶阀,气动高压球阀,气动对夹蝶阀,气动V型调节球阀-上海川沪阀门有限公司 | cnc精密加工_数控机械加工_非标平键定制生产厂家_扬州沃佳机械有限公司 | 桑茶-七彩贝壳桑叶茶 长寿茶| 二手注塑机回收_旧注塑机回收_二手注塑机买卖 - 大鑫二手注塑机 二手光谱仪维修-德国OBLF光谱仪|进口斯派克光谱仪-热电ARL光谱仪-意大利GNR光谱仪-永晖检测 | 高精度电阻回路测试仪-回路直流电阻测试仪-武汉特高压电力科技有限公司 | 礼至家居-全屋定制家具_一站式全屋整装_免费量房设计报价 | 不锈钢拉手厂家|浴室门拉手厂家|江门市蓬江区金志翔五金制品有限公司 | 口信网(kousing.com) - 行业资讯_行业展会_行业培训_行业资料 | 全温恒温摇床-水浴气浴恒温摇床-光照恒温培养摇床-常州金坛精达仪器制造有限公司 | 平面钻,法兰钻,三维钻-山东兴田阳光智能装备股份有限公司 | 上海律师事务所_上海刑事律师免费咨询平台-煊宏律师事务所 | 集装袋吨袋生产厂家-噸袋廠傢-塑料编织袋-纸塑复合袋-二手吨袋-太空袋-曹县建烨包装 | 天津暖气片厂家_钢制散热器_天津铜铝复合暖气片_维尼罗散热器 | MOOG伺服阀维修,ATOS比例流量阀维修,伺服阀维修-上海纽顿液压设备有限公司 |