精准猎取科技资讯,天堂视频在线观看,高效阅读科技新闻_黄色av网站在线免费观看_科技猎

Spark VS Hadoop 兩大大數(shù)據(jù)分析系統(tǒng)深度解讀

我是創(chuàng)始人李巖:很抱歉!給自己產(chǎn)品做個廣告,點擊進來看看。  

Spark VS Hadoop 兩大大數(shù)據(jù)分析系統(tǒng)深度解讀

作者:張景龍

摘要:大數(shù)據(jù),無論是從產(chǎn)業(yè)上,還是從技術(shù)上來看,都是目前的發(fā)展熱點。在中國,政府控制著80%的數(shù)據(jù),剩下的多由“BAT”這樣的大公司擁有,中小企業(yè)如何構(gòu)建自己的大數(shù)據(jù)系統(tǒng)?其他企業(yè)如何建設(shè)自己的大數(shù)據(jù)系統(tǒng)?

推薦兩大應(yīng)用最廣泛、國人認知最多的Apache開源大數(shù)據(jù)框架系統(tǒng):Spark Hadoop

Spark:速度快、易于使用

Spark以性能見長,但是它也因易用性而小有名氣,原因是它隨帶易于使用的API,支持Scala(原生語言)、Java、Python和Spark SQL。Spark SQL非常類似于SQL 92,所以幾乎不需要經(jīng)歷一番學(xué)習(xí),馬上可以上手。

Spark是UC Berkeley AMP lab所開源的類Hadoop MapReduce的通用的并行計算框架,Spark基于map reduce算法實現(xiàn)的分布式計算,擁有Hadoop MapReduce所具有的優(yōu)點;但不同于MapReduce的是Job中間輸出結(jié)果可以保存在內(nèi)存中,從而不再需要讀寫HDFS,因此Spark能更好地適用于數(shù)據(jù)挖掘與機器學(xué)習(xí)等需要迭代的map reduce的算法。

Spark還有一種交互模式,那樣開發(fā)人員和用戶都可以獲得查詢和其他操作的即時反饋。MapReduce沒有交互模式,不過有了Hive和Pig等附加模塊,采用者使用MapReduce來得容易一點。

成本上來看:Spark需要大量內(nèi)存,但是可以使用常規(guī)數(shù)量的常規(guī)轉(zhuǎn)速磁盤。一些用戶抱怨會產(chǎn)生臨時文件,需要清理。這些臨時文件通常保存7天,以便加快針對同一數(shù)據(jù)集的任何處理。磁盤空間相對便宜,由于Spark不使用磁盤輸入/輸入用于處理,已使用的磁盤空間可以用于SAN或NAS。

容錯上:Spark使用彈性分布式數(shù)據(jù)集(RDD),它們是容錯集合,里面的數(shù)據(jù)元素可執(zhí)行并行操作。RDD可以引用外部存儲系統(tǒng)中的數(shù)據(jù)集,比如共享式文件系統(tǒng)、HDFS、HBase,或者提供Hadoop InputFormat的任何數(shù)據(jù)源。Spark可以用Hadoop支持的任何存儲源創(chuàng)建RDD,包括本地文件系統(tǒng),或前面所列的其中一種文件系統(tǒng)。

Hadoop:分布式文件系統(tǒng)

Hadoop是Apache.org的一個項目,其實是一種軟件庫和框架,以便使用簡單的編程模型,跨計算器集群對龐大數(shù)據(jù)集(大數(shù)據(jù))進行分布式處理。Hadoop可靈活擴展,從單一計算機系統(tǒng),到提供本地存儲和計算能力的數(shù)千個商用系統(tǒng),它都能輕松支持。實際上,Hadoop就是大數(shù)據(jù)分析領(lǐng)域的重量級大數(shù)據(jù)平臺。

Hadoop由協(xié)同運行、構(gòu)建Hadoop框架的多個模塊組成。Hadoop框架的主要模塊包括如下:

  • Hadoop Common
  • Hadoop分布式文件系統(tǒng)(HDFS)
  • Hadoop YARN
  • Hadoop MapReduce

雖然上述四個模塊構(gòu)成了Hadoop的核心,不過還有其他幾個模塊。這些模塊包括:Ambari、Avro、Cassandra、Hive、Pig、Oozie、Flume和Sqoop,它們進一步增強和擴展了Hadoop的功能,得以擴大到大數(shù)據(jù)應(yīng)用領(lǐng)域,處理龐大數(shù)據(jù)集。

許多使用大數(shù)據(jù)集和分析工具的公司使用Hadoop。它已成為大數(shù)據(jù)應(yīng)用系統(tǒng)中事實上的標準。設(shè)計Hadoop的初衷是處理這項任務(wù):搜尋和搜索數(shù)十億個網(wǎng)頁,將這些信息收集到數(shù)據(jù)庫中。正是由于渴望搜尋和搜索互聯(lián)網(wǎng),才有了Hadoop的HDFS及分布式處理引擎MapReduce。

成本上: MapReduce使用常規(guī)數(shù)量的內(nèi)存,因為數(shù)據(jù)處理基于磁盤,所以公司得購買速度更快的磁盤和大量磁盤空間來運行MapReduce。MapReduce還需要更多的系統(tǒng),將磁盤輸入/輸出分布到多個系統(tǒng)上。

容錯上: MapReduce使用TaskTracker節(jié)點,它為JobTracker節(jié)點提供了心跳(heartbeat)。如果沒有心跳,那么JobTracker節(jié)點重新調(diào)度所有將執(zhí)行的操作和正在進行的操作,交給另一個TaskTracker節(jié)點。這種方法在提供容錯性方面很有效,可是會大大延長某些操作(即便只有一個故障)的完成時間。

總結(jié)

Spark與MapReduce是一種相互共生的關(guān)系。Hadoop提供了Spark所沒有的功能特性,比如分布式文件系統(tǒng),而Spark為需要它的那些數(shù)據(jù)集提供了實時內(nèi)存處理。完美的大數(shù)據(jù)場景正是設(shè)計人員當初預(yù)想的那樣:讓Hadoop和Spark在同一個團隊里面協(xié)同運行。

作者:張景龍 暢移(上海)信息科技有限公司CTO,CCFYOCSEF上海委員,京東今夜酒店特價APP技術(shù)奠基人和首任CTO,中國第一代智能手機開發(fā)者。

End.

本文被轉(zhuǎn)載1次

首發(fā)媒體 36大數(shù)據(jù) | 轉(zhuǎn)發(fā)媒體

隨意打賞

hadoop sparkhadoop和spark大數(shù)據(jù) 深度學(xué)習(xí)深度操作系統(tǒng)深度數(shù)據(jù)深度解讀
提交建議
微信掃一掃,分享給好友吧。
主站蜘蛛池模板: 采暖炉_取暖炉_生物质颗粒锅炉_颗粒壁炉_厂家加盟批发_烟台蓝澳采暖设备有限公司 | 环境模拟实验室_液体-气体控温机_气体控温箱_无锡双润冷却科技有限公司 | 春腾云财 - 为企业提供专业财税咨询、代理记账服务 | KBX-220倾斜开关|KBW-220P/L跑偏开关|拉绳开关|DHJY-I隔爆打滑开关|溜槽堵塞开关|欠速开关|声光报警器-山东卓信有限公司 | 无负压供水设备,消防稳压供水设备-淄博创辉供水设备有限公司 | 涿州网站建设_网站设计_网站制作_做网站_固安良言多米网络公司 | 胜为光纤光缆_光纤跳线_单模尾纤_光纤收发器_ODF光纤配线架厂家直销_北京睿创胜为科技有限公司 - 北京睿创胜为科技有限公司 | 乳化沥青设备_改性沥青设备_沥青加温罐_德州市昊通路桥工程有限公司 | 全自动固相萃取仪_高通量真空平行浓缩仪-勤业永为 | 设定时间记录电子秤-自动累计储存电子秤-昆山巨天仪器设备有限公司 | 交流伺服电机|直流伺服|伺服驱动器|伺服电机-深圳市华科星电气有限公司 | 煤矿人员精确定位系统_矿用无线通信系统_煤矿广播系统 | 脉冲布袋除尘器_除尘布袋-泊头市净化除尘设备生产厂家 | 英国雷迪地下管线探测仪-雷迪RD8100管线仪-多功能数字听漏仪-北京迪瑞进创科技有限公司 | 真空上料机(一种真空输送机)-百科 | 电缆接头_防水接头_电缆防水接头 - 乐清市新豪电气有限公司 | 股指期货-期货开户-交易手续费佣金加1分-保证金低-期货公司排名靠前-万利信息开户 | Q361F全焊接球阀,200X减压稳压阀,ZJHP气动单座调节阀-上海戎钛 | 生物颗粒燃烧机-生物质燃烧机-热风炉-生物颗粒蒸汽发生器-丽水市久凯能源设备有限公司 | 环氧树脂地坪_防静电地坪漆_环氧地坪漆涂料厂家-地壹涂料地坪漆 环球电气之家-中国专业电气电子产品行业服务网站! | 红外光谱仪维修_二手红外光谱仪_红外压片机_红外附件-天津博精仪器 | 食品机械专用传感器-落料放大器-低价接近开关-菲德自控技术(天津)有限公司 | 恒湿机_除湿加湿一体机_恒湿净化消毒一体机厂家-杭州英腾电器有限公司 | 技德应用| 威廉希尔WilliamHill·足球(中国)体育官方网站 | 膏剂灌装旋盖机-眼药水灌装生产线-西林瓶粉剂分装机-南通博琅机械科技 | 阻垢剂,反渗透阻垢剂,缓蚀阻垢剂-山东普尼奥水处理科技有限公司 真空粉体取样阀,电动楔式闸阀,电动针型阀-耐苛尔(上海)自动化仪表有限公司 | 创绿家招商加盟网-除甲醛加盟-甲醛治理加盟-室内除甲醛加盟-创绿家招商官网 | 进口便携式天平,外校_十万分之一分析天平,奥豪斯工业台秤,V2000防水秤-重庆珂偌德科技有限公司(www.crdkj.com) | 天津市能谱科技有限公司-专业的红外光谱仪_红外测油仪_紫外测油仪_红外制样附件_傅里叶红外光谱技术生产服务厂商 | 钢板仓,大型钢板仓,钢板库,大型钢板库,粉煤灰钢板仓,螺旋钢板仓,螺旋卷板仓,骨料钢板仓 | 自清洗过滤器_全自动过滤器_全自动反冲洗过滤器_量子过滤器-滑漮滴 | 滚筒烘干机_转筒烘干机_滚筒干燥机_转筒干燥机_回转烘干机_回转干燥机-设备生产厂家 | 乳化沥青设备_改性沥青设备_沥青加温罐_德州市昊通路桥工程有限公司 | 微信小程序定制,广州app公众号商城网站开发公司-广东锋火 | 成都办公室装修-办公室设计-写字楼装修设计-厂房装修-四川和信建筑装饰工程有限公司 | 广州中央空调回收,二手中央空调回收,旧空调回收,制冷设备回收,冷气机组回收公司-广州益夫制冷设备回收公司 | 光环国际-新三板公司_股票代码:838504 | 宠物店加盟_宠物连锁店_开宠物店-【派多格宠物】 | 体感VRAR全息沉浸式3D投影多媒体展厅展会游戏互动-万展互动 | 猪I型/II型胶原-五克隆合剂-细胞冻存培养基-北京博蕾德科技发展有限公司 |