精准猎取科技资讯,天堂视频在线观看,高效阅读科技新闻_黄色av网站在线免费观看_科技猎

對(duì)話Hadoop之父Doug Cutting|大數(shù)據(jù)和開(kāi)源的未來(lái)

我是創(chuàng)始人李巖:很抱歉!給自己產(chǎn)品做個(gè)廣告,點(diǎn)擊進(jìn)來(lái)看看。  

2016-08-24 大數(shù)據(jù)文摘 真正致歉:大數(shù)據(jù)文摘在8月23日的頭條文章中,將中科院院士“陸汝鈐”錯(cuò)寫成了“陸汝鈴”。對(duì)此,大數(shù)據(jù)文摘全體編輯組深表歉意,向所有讀者和陸汝鈐院士真誠(chéng)致歉,并感謝在后臺(tái)留言提醒的所有讀者。 大數(shù)據(jù)文摘自2013年成立以來(lái)一直堅(jiān)持每日更新,從未間斷,之后也會(huì)繼續(xù)帶來(lái)更多高質(zhì)量好文。 【線上活動(dòng)報(bào)名】 活動(dòng):螞蟻金服&阿里云在線金融技術(shù)峰會(huì) 講師:8位阿里及螞蟻金服資深大V線上培訓(xùn)答疑 時(shí)間:8月30日-31日晚20:00-21:30 免費(fèi)報(bào)名方式見(jiàn)文末 課程結(jié)束后,PPT等素材會(huì)在群里第一時(shí)間公開(kāi) ◆ ◆ ◆ 前言 對(duì)中國(guó)大數(shù)據(jù)產(chǎn)業(yè)來(lái)說(shuō),2016年是從垂直領(lǐng)域野蠻生長(zhǎng)到爆發(fā)全國(guó)范圍關(guān)注熱潮的一個(gè)轉(zhuǎn)折點(diǎn)。不論是人山人海巨頭云集的貴陽(yáng)數(shù)博會(huì),還是首次在華舉辦的全球頂級(jí)大數(shù)據(jù)會(huì)議Strata + Hadoop World,都揭示了中國(guó)大數(shù)據(jù)產(chǎn)業(yè)發(fā)展的澎湃動(dòng)力。 在Hadoop生態(tài)領(lǐng)域,Cloudera是規(guī)模最大、知名度最高的企業(yè),也是當(dāng)前大數(shù)據(jù)領(lǐng)域最強(qiáng)有力的解決方案服務(wù)商之一。帶著對(duì)中國(guó)大數(shù)據(jù)市場(chǎng)的滿滿誠(chéng)意,Cloudera創(chuàng)始人、董事長(zhǎng)兼首席戰(zhàn)略官M(fèi)ike Olson以及Hadoop之父、Cloudera首席架構(gòu)師Doug Cutting日前到訪清華,講述了Hadoop的發(fā)展歷程,并與清華大學(xué)軟件學(xué)院副院長(zhǎng)、黨委書(shū)記王建民及現(xiàn)場(chǎng)的同學(xué)們展開(kāi)了深刻而有趣的對(duì)話。 相關(guān)新產(chǎn)品的涌現(xiàn)對(duì)于大數(shù)據(jù)技術(shù)的未來(lái)會(huì)有什么樣的影響?大數(shù)據(jù)服務(wù)的云平臺(tái)未來(lái)應(yīng)該如何選擇?怎樣去發(fā)現(xiàn)中國(guó)真正的大數(shù)據(jù)市場(chǎng)?中國(guó)的開(kāi)源發(fā)展目前是什么情況?大數(shù)據(jù)文摘今日推送對(duì)話三位大師關(guān)于以上問(wèn)題的對(duì)話實(shí)錄。 對(duì)話人物簡(jiǎn)介 Doug Cutting:畢業(yè)于美國(guó)斯坦福大學(xué),Lucene、Nutch等開(kāi)源項(xiàng)目的發(fā)起人,打造了目前在云計(jì)算和大數(shù)據(jù)領(lǐng)域里如日中天的Hadoop,讓大數(shù)據(jù)推動(dòng)業(yè)務(wù)的數(shù)字化轉(zhuǎn)型有了開(kāi)源的技術(shù)平臺(tái)。他擅于把高深莫測(cè)的搜索技術(shù)形成產(chǎn)品并貢獻(xiàn)于市場(chǎng)及大眾,現(xiàn)任Cloudera首席架構(gòu)師,同時(shí)也在Apache軟件基金會(huì)董事會(huì)任職。 Mike Olson:畢業(yè)于加利福利亞大學(xué),曾作為Sleepycat軟件公司CEO主導(dǎo)開(kāi)發(fā)了全球應(yīng)用廣泛的開(kāi)源數(shù)據(jù)庫(kù)Berkeley DB,后被甲骨文收購(gòu),任甲骨文嵌入式技術(shù)副總裁。2008年與其他三位合伙人創(chuàng)立Cloudera,將其打造成國(guó)際領(lǐng)先的大數(shù)據(jù)數(shù)據(jù)管理和分析平臺(tái)的服務(wù)商,2014年12月Cloudera進(jìn)入中國(guó)。 王建民:清華大學(xué)軟件學(xué)院副院長(zhǎng)、清華大學(xué)軟件學(xué)院大數(shù)據(jù)中心主任,國(guó)家科技部中青年科技領(lǐng)軍人才,國(guó)家基金委杰出青年基金獲得者,國(guó)家“核高基”科技重大專項(xiàng)總體組成員,國(guó)家863計(jì)劃先進(jìn)制造領(lǐng)域?qū)<摇?guó)家衛(wèi)計(jì)委信息化專家委專家、我國(guó)第一個(gè)大數(shù)據(jù)專項(xiàng)“核高基”-“非結(jié)構(gòu)化數(shù)據(jù)管理系統(tǒng)”負(fù)責(zé)人;工信部“中國(guó)制造2025”:“操作系統(tǒng)與工業(yè)軟件”工作組組長(zhǎng)。 ◆ ◆ ◆ 一、 關(guān)于HADOOP與Spark、GPU,及商業(yè)化未來(lái) 1、面對(duì)Spark這類新興技術(shù)的發(fā)展,以及MapReduce市場(chǎng)萎縮的情況,你們?nèi)绾慰创@種市場(chǎng)變化? 邁克:Hadoop由很多部分構(gòu)成,第一層是HDFS,完全做分布式存儲(chǔ),此外MapReduce用來(lái)做分布式處理;有分布式地面向列的開(kāi)源數(shù)據(jù)庫(kù)技術(shù)HBase;Impala可以在支持Hadoop的HDFS系統(tǒng)上,直接做SQL的查詢;也有Cloudera做的Kudu這樣的新型存儲(chǔ)技術(shù)。 Spark只是其中的新技術(shù)之一,并不是好像全世界都只用Spark。當(dāng)然,我們?nèi)绻ケ容^Spark和MapReduce,從現(xiàn)在的情況來(lái)看,Spark的確會(huì)勝出,但基于Hadoop還會(huì)不斷涌現(xiàn)出更多新技術(shù)。 道克:沒(méi)錯(cuò),Spark的確非常好。在實(shí)時(shí)批處理上表現(xiàn)優(yōu)異,但它不是全能的,比如它不具備SQL訪問(wèn)查詢、Solr和Lucence搜索倒排索引、HDFS、Kudu的數(shù)據(jù)存儲(chǔ)能力等。Spark僅僅是Spark,它不代表Hadoop所有的技術(shù),Hadoop將會(huì)孕育更多新技術(shù)出來(lái)。 2、計(jì)算機(jī)和大數(shù)據(jù)技術(shù)都在日新月異的變化,特別在硬件方面,我們看到很多下一代硬件不斷的涌現(xiàn),這些新產(chǎn)品的涌現(xiàn)對(duì)于大數(shù)據(jù)技術(shù)的未來(lái)會(huì)有什么樣的影響? 邁克:像網(wǎng)絡(luò)、CPU在未來(lái)會(huì)出現(xiàn)非常多的變化,正確的方法是軟件去適配硬件,而不是無(wú)視硬件的變化。硬件的升級(jí)并不會(huì)妨礙未來(lái)大數(shù)據(jù)技術(shù)的發(fā)展,反而大數(shù)據(jù)系統(tǒng)會(huì)更好的去利用這些新硬件去改變世界,兩者不存在替代關(guān)系。 過(guò)去十年,我們已經(jīng)看到了很多這類變化。Cloudera有著非常深厚的英特爾背景,我們的很多員工來(lái)自于英特爾,英特爾也是我們的投資人之一。我相信我們和英特爾的密切關(guān)系,未來(lái)會(huì)更多的幫助下一代軟硬件技術(shù)的融合與適配。 道克:很多人在問(wèn)我,怎么把GPU和Hadoop結(jié)合,這其實(shí)是一個(gè)錯(cuò)誤的命題。Hadoop實(shí)際上是基于IO Intensive的系統(tǒng),它整個(gè)系統(tǒng)的瓶頸是在系統(tǒng)的IO上,包括磁盤IO、網(wǎng)絡(luò)IO,所以它需要解決的根本并不是CPU的問(wèn)題。未來(lái)當(dāng)IO不再困擾我們的時(shí)候,也許那時(shí)再來(lái)談怎么用CPU加速的技術(shù)解決更多問(wèn)題更有意義。 像谷歌Tenzing的機(jī)器學(xué)習(xí)系統(tǒng)就可以很好的利用GPU,而不是現(xiàn)在吧的大數(shù)據(jù)系統(tǒng)來(lái)加速。但我相信在這個(gè)領(lǐng)域?qū)?lái)會(huì)有更多的機(jī)會(huì),我們將看到很多數(shù)據(jù)結(jié)構(gòu)、系統(tǒng)結(jié)構(gòu),會(huì)適應(yīng)新硬件的變化趨勢(shì)而發(fā)生轉(zhuǎn)變。 3、Hadoop3.0的關(guān)鍵特性 邁克:Hadoop3.0的確會(huì)有一些側(cè)重,排在首位的就是多租戶技術(shù),將來(lái)我們會(huì)在Hadoop 3.0的平臺(tái)上看到更多不同的像MapReduce、Spark這樣的技術(shù),可以同時(shí)在一個(gè)平臺(tái)上被不同的用戶運(yùn)行,就像Yarn正在做的一樣。所以Hadoop 3.0的特點(diǎn)就是支持更多的系統(tǒng)可以更好的運(yùn)行,更好的去實(shí)現(xiàn)多租戶這個(gè)概念。 另外,Hadoop3.0更多的是適配新硬件技術(shù)的改變,比如英特爾新推出的優(yōu)化存儲(chǔ)、CPU的新技術(shù),特別是SSD技術(shù)。硬件價(jià)格的走低,讓我們更有可能去利用這些技術(shù)。Cloudera新啟動(dòng)的一個(gè)Apache開(kāi)源項(xiàng)目叫Apache Kudu,這是一個(gè)新型的存儲(chǔ)系統(tǒng),Kudu就正在利用這樣一些這樣的新硬件技術(shù)。 道克:現(xiàn)在還有另一個(gè)我們?cè)谧龅捻?xiàng)目,內(nèi)容是基于HDFS和新型硬件結(jié)合做系統(tǒng)復(fù)制。這種復(fù)制技術(shù),不只能加快系統(tǒng)的速度,還會(huì)提升系統(tǒng)的容量。這個(gè)項(xiàng)目的開(kāi)發(fā)者就在英特爾中國(guó)公司,中國(guó)已經(jīng)出現(xiàn)了很多很好的創(chuàng)新技術(shù)。 4、CDH商業(yè)產(chǎn)品的未來(lái)怎么樣? 邁克:Cloudera一直在保持這個(gè)系統(tǒng)的開(kāi)源,雖然上面有很多收費(fèi)的工具,但是這樣做的目的并不是阻止用戶。因?yàn)楝F(xiàn)在有很多商業(yè)軟件巨頭會(huì)利用我們的開(kāi)源系統(tǒng),把它作為商業(yè)軟件,去獲得更多的市場(chǎng)機(jī)會(huì),去贏取更多的利潤(rùn)。所以我們一方面會(huì)保持底層數(shù)據(jù)存儲(chǔ)、處理引擎系統(tǒng)的開(kāi)源,讓用戶可以把這個(gè)技術(shù)用得更好、讓系統(tǒng)變得更易用;同時(shí),堅(jiān)持收費(fèi)的舉措也讓我們能夠有能力在大數(shù)據(jù)系統(tǒng)市場(chǎng)上和大型商業(yè)軟件公司競(jìng)爭(zhēng)。 開(kāi)源將有利于更多人參與系統(tǒng)的開(kāi)發(fā),讓更多的大學(xué)可以參與學(xué)習(xí),讓更多的用戶可以接受新知識(shí)。所以大家看到了Impala和Spark。我很高興看到作為一家公司Cloudera在大數(shù)據(jù)市場(chǎng)上越來(lái)越多的成長(zhǎng)機(jī)會(huì)。 道克:開(kāi)源平臺(tái)上,Apache僅僅是把所有技術(shù)囊括在一起,但Apache上面可能有二十多種不同的打包方式,怎么去安裝?怎么去配置?怎么去打包?這些其實(shí)對(duì)很多用戶來(lái)講都非常具有挑戰(zhàn)性。所以我們推出CDH Commercial版,已經(jīng)幫大家把對(duì)應(yīng)的系統(tǒng)打包好了,通過(guò)CDH我們會(huì)幫助大家更好的管理數(shù)據(jù),管理大數(shù)據(jù)系統(tǒng)。 如果用戶愿意去使用免費(fèi)開(kāi)源系統(tǒng)這沒(méi)有任何問(wèn)題,但是如果用戶需要我們的幫助,可以去訂購(gòu)Cloudera的商業(yè)版。這就是硅谷現(xiàn)在的開(kāi)源文化,有越來(lái)越多的公司在做開(kāi)源。開(kāi)源的東西是免費(fèi)的,但我們?cè)诓粩嗵峁┰鲋捣?wù)。我們也需要有更多的客戶認(rèn)可這樣的服務(wù)價(jià)值并愿意幫助Cloudera這樣的公司在市場(chǎng)上存活下去,跟我們建立更長(zhǎng)期的合作關(guān)系,支持我們的業(yè)務(wù)。 ◆ ◆ ◆ 二、 關(guān)于大數(shù)據(jù)系統(tǒng)的應(yīng)用,選擇與困擾 5、如果我們現(xiàn)在有一個(gè)項(xiàng)目剛開(kāi)始,面對(duì)這么多大數(shù)據(jù)系統(tǒng),應(yīng)該怎么選擇一個(gè)合適的平臺(tái)? 道克:這的確很難,我們可能需要去熟悉所有的系統(tǒng)和工具,需要更多的實(shí)驗(yàn),去測(cè)試這些系統(tǒng)。在滿足工作負(fù)載的前提下,比較在哪個(gè)系統(tǒng)工具上工作得更好。但幸運(yùn)的是,這類測(cè)試的確越來(lái)越容易了,現(xiàn)在有越來(lái)越多的工具可以進(jìn)行輔助。 但是真正在設(shè)計(jì)的過(guò)程中需要去考慮很多技術(shù)細(xì)節(jié),比如系統(tǒng)處理速度和系統(tǒng)吞吐的平衡。這個(gè)過(guò)程更像是一門藝術(shù),而不像一個(gè)技術(shù)。 邁克:你選Cloudera就行了,不用去想更多的(哈哈)。 6、我們現(xiàn)在碰到的很大問(wèn)題是面對(duì)系統(tǒng)的版本升級(jí),用戶需要不斷去升級(jí)他們建好的系統(tǒng),Cloudera怎么看待這樣的挑戰(zhàn)? 邁克:當(dāng)然,商業(yè)版的更新很簡(jiǎn)單,一鍵安裝新的系統(tǒng)就好了。如果是開(kāi)源的系統(tǒng)就會(huì)很難,因?yàn)殚_(kāi)源你需要去選擇一個(gè)適合的文件包,需要自己去重新搭建,需要自己去測(cè)試,而這些在Cloudera商業(yè)版里都已經(jīng)幫你做好了。 道克:如果不兼容,就只能來(lái)找Cloudera,這樣我們的商業(yè)服務(wù)就能有發(fā)展空間了(哈哈)。 王建民:看來(lái)這樣的機(jī)會(huì)、這樣的服務(wù)對(duì)于Cloudera而言是一個(gè)很有價(jià)值的業(yè)務(wù)。 邁克:我們是一家創(chuàng)新公司,所以首先我們是一群創(chuàng)新者,我們的首要工作是設(shè)立未來(lái)大數(shù)據(jù)系統(tǒng)發(fā)展的方向。第二件事,我們的確做商業(yè)軟件,我們會(huì)把這些開(kāi)源系統(tǒng)打包、測(cè)試,會(huì)在上面做很多工具,我們也會(huì)利用它來(lái)提供服務(wù)。 7、大數(shù)據(jù)服務(wù)的云平臺(tái)未來(lái)應(yīng)該如何選擇? 邁克:在商業(yè)層面上各種主流的云平臺(tái)Cloudera都支持,我們?cè)诒泵篮虯WS、谷歌等都有合作,在中國(guó)將和騰訊、百度等有更多的合作,可以看到云服務(wù)市場(chǎng)增長(zhǎng)非常快。 道克:如何選擇云服務(wù)有很多因素要考慮。第一個(gè)是經(jīng)濟(jì)角度上,到底哪種方式更具性價(jià)比,并不是所有的公有云都比私有云更便宜。第二個(gè)是安全,雖然我們可以用多種加密的方式解決這個(gè)問(wèn)題,讓別人更安心,但是安全永遠(yuǎn)是影響抉擇的重要因素。還有另一個(gè)問(wèn)題,我們需要考慮得非常清楚,通常我們遷移大數(shù)據(jù)系統(tǒng)是非常昂貴的,所以我們?cè)谶x擇一個(gè)云的運(yùn)營(yíng)商之前,首先要意識(shí)到,這個(gè)運(yùn)營(yíng)商給我們提供的技術(shù)是不是我們需要的。一旦需要在這個(gè)平臺(tái)上進(jìn)行轉(zhuǎn)換,是不是很容易操作。我能見(jiàn)到的最大錯(cuò)誤就是選擇了某個(gè)云平臺(tái)之后被吃定,無(wú)法遷移轉(zhuǎn)換。 邁克:我們選擇開(kāi)源有一個(gè)非常大的好處,因?yàn)榈讓拥募夹g(shù)其實(shí)都是一樣的,是完全兼容的。如果我們選擇了不合適的云運(yùn)營(yíng)商,或者不合適的大數(shù)據(jù)商業(yè)軟件合作伙伴,我們可以比較容易完成系統(tǒng)遷移。 道克:還有一個(gè)融合的問(wèn)題。比如企業(yè)內(nèi)部有架構(gòu)存儲(chǔ)一部分?jǐn)?shù)據(jù),同時(shí)在公有云上也存儲(chǔ)一部分?jǐn)?shù)據(jù),如果我們選擇混合云的方式,可能會(huì)讓我們?cè)谔幚頂?shù)據(jù)時(shí)非常困難,因?yàn)檫@兩個(gè)架構(gòu)之間任一方向的數(shù)據(jù)遷移,都非常昂貴。是否需要把數(shù)據(jù)放在不同的地方,這也是我們?cè)谶x擇云計(jì)算架構(gòu)時(shí)必須要非常認(rèn)真考慮的一個(gè)問(wèn)題。 8、如何去發(fā)掘Hadoop系統(tǒng)的應(yīng)用性領(lǐng)域,尤其在中國(guó)?怎樣去發(fā)現(xiàn)中國(guó)真正的大數(shù)據(jù)市場(chǎng)? 邁克:大數(shù)據(jù)分析、機(jī)器學(xué)習(xí)等技術(shù)發(fā)展,都在真實(shí)發(fā)生著,這些事情觸發(fā)了我們會(huì)有更多的數(shù)據(jù),需要更多的處理能力,需要有更多的分析應(yīng)用,這樣正是我們希望看到的市場(chǎng)需求。 2006年我代表Oracle來(lái)中國(guó),當(dāng)時(shí)正好是中國(guó)“十一五”開(kāi)端的第一年,中國(guó)政府第一次在“十一五”的五年規(guī)劃中開(kāi)始強(qiáng)調(diào)創(chuàng)新,今年是2016年,是“十三五”的開(kāi)局之年,中國(guó)政府不但強(qiáng)調(diào)創(chuàng)新,還強(qiáng)調(diào)了創(chuàng)業(yè),我認(rèn)為中國(guó)現(xiàn)在有一個(gè)非常好的開(kāi)端。 對(duì)于Cloudera而言,在中國(guó)市場(chǎng)需要尋找更多的合作伙伴。我們看到像GM跟上汽合作為全球市場(chǎng)設(shè)計(jì)新車,中國(guó)已經(jīng)出現(xiàn)越來(lái)越多的垂直細(xì)分領(lǐng)域,比如像電信、保險(xiǎn),有越來(lái)越多的中國(guó)公司在使用大數(shù)據(jù),成為很好的行業(yè)范例。中國(guó)大數(shù)據(jù)的應(yīng)用前景非常好,已經(jīng)取得了令人刮目相看的成就。中國(guó)市場(chǎng)的體量非常大,增量也會(huì)很大,不只是大數(shù)據(jù)市場(chǎng),中國(guó)在其它細(xì)分領(lǐng)域一定會(huì)出現(xiàn)更多更好的創(chuàng)新,會(huì)孵化出更多大數(shù)據(jù)的技術(shù)與應(yīng)用。 ◆ ◆ ◆ 三、 關(guān)于開(kāi)源及未來(lái) 9、事實(shí)上,人們對(duì)開(kāi)源還有困惑,很多中國(guó)團(tuán)隊(duì)的想要致力于開(kāi)源,你們有什么建議給那些想要參與進(jìn)來(lái)的人? 道克:第一件事是找到一個(gè)恰當(dāng)?shù)念I(lǐng)域,現(xiàn)在的開(kāi)源項(xiàng)目不是那么容易做好,首先要確保你的產(chǎn)品是有用的。 提問(wèn):這個(gè)領(lǐng)域是什么? 道克:這個(gè)很難去做預(yù)測(cè),每個(gè)細(xì)分行業(yè)都有不同的現(xiàn)實(shí)情況,但相信大家是可以找發(fā)掘的。第二點(diǎn),明確領(lǐng)域后,我們要建立對(duì)應(yīng)的大數(shù)據(jù)系統(tǒng);第三點(diǎn),系統(tǒng)做出來(lái)之后我們需要有更多的參與者,需要讓大家意識(shí)到這個(gè)系統(tǒng)的價(jià)值,并愿意投入去改進(jìn)你現(xiàn)在做的系統(tǒng),愿意加入這個(gè)的社區(qū)團(tuán)隊(duì)。這就是我們講到的開(kāi)源文化。 這三步做到之后,你的項(xiàng)目規(guī)模自然而然就會(huì)增長(zhǎng),就會(huì)吸引更多的人參與,而且在這個(gè)過(guò)程中,所有參與項(xiàng)目的人需要非常開(kāi)放,樂(lè)于幫助,更多這樣的人加入才會(huì)促使這件事成功。反之,如果我們做的是非常狹隘的一個(gè)領(lǐng)域,并希望它控制在一個(gè)什么樣的范圍內(nèi),通常這樣的項(xiàng)目就難以成功。 邁克:在成為Cloudera的Leader之前,我曾是一個(gè)開(kāi)發(fā)人員,做伯克利的數(shù)據(jù)庫(kù)。在我的經(jīng)驗(yàn)中,社區(qū)是最重要的。并不是說(shuō)一個(gè)開(kāi)源社區(qū)做出來(lái)就是為了免費(fèi),關(guān)鍵是有更多人參與。現(xiàn)在中國(guó)的團(tuán)隊(duì)不只是參與到既有的項(xiàng)目中,有的已經(jīng)開(kāi)始去創(chuàng)造自己的新項(xiàng)目。 比如說(shuō)來(lái)ebay中國(guó)的一群人創(chuàng)造了麒麟這個(gè)項(xiàng)目,這個(gè)項(xiàng)目現(xiàn)在已經(jīng)變成了Apache的一個(gè)典型項(xiàng)目。所以我非常樂(lè)于見(jiàn)到更多來(lái)自中國(guó)的技術(shù)可以貢獻(xiàn)在全球。 王建民:現(xiàn)在中國(guó)有非常好的開(kāi)源文化,很多年輕一代都非常熱情,愿意去做這件事情,但苦于我們沒(méi)有找到正確的門路和方法。清華正在做這方面的努力,清華數(shù)科院和Cloudera的戰(zhàn)略合作,其中非常重要的部分就是如何幫助中國(guó)開(kāi)源社區(qū)的成長(zhǎng),我們也希望通過(guò)這樣的方式,培養(yǎng)更多的中國(guó)本土的Leader,將來(lái)他們可以去創(chuàng)建多樣化的開(kāi)源社區(qū),去領(lǐng)導(dǎo)更多的項(xiàng)目。 道克:需要強(qiáng)調(diào)一下,開(kāi)源并不是一件容易的事情,它意味著我們需要投入更多的努力。我們需要有大量來(lái)自全球的有關(guān)需求的溝通,可能你的團(tuán)隊(duì)在中國(guó),你的需求來(lái)自于英國(guó)或者是美國(guó),語(yǔ)言障礙會(huì)帶來(lái)挑戰(zhàn)。此外,選擇做開(kāi)源,選擇一個(gè)更多人可以用的東西,一定意味著需要有更多付出。 舉一個(gè)例子,我和我孩子做飯,可以選擇我自己做,讓我的孩子做,或者教我的孩子做。讓我做飯很簡(jiǎn)單,但是讓我的孩子做飯一定是個(gè)災(zāi)難。如果讓我選擇,教我的孩子如何做飯,雖然培養(yǎng)的過(guò)程需要花很多的精力,但最終當(dāng)孩子學(xué)會(huì)做飯之后,就能一勞永逸。 開(kāi)源社區(qū)也是這樣,開(kāi)始階段需要投入比我們現(xiàn)有項(xiàng)目更多的努力,但是一旦我們很好的建立一個(gè)社區(qū)和社區(qū)文化,這個(gè)項(xiàng)目就會(huì)有一種自我生長(zhǎng)、自我繁殖的能力。 10、中國(guó)另一個(gè)現(xiàn)狀就是天賦的缺失,你們有什么建議? 道克:這個(gè)的確很難,因?yàn)楝F(xiàn)在大數(shù)據(jù)技術(shù)的變化演進(jìn)非常快,如果你希望成為一個(gè)大數(shù)據(jù)人才,就必須有非常強(qiáng)的學(xué)習(xí)新技術(shù)的能力。技術(shù)變化太快了,只有最好的人才能做到。真正能夠解決的方式只有自我不斷的學(xué)習(xí),以及可以有第三方提供的培訓(xùn)來(lái)幫助大家。Cloudera提供了一些課程出來(lái),這個(gè)課程對(duì)大學(xué)是免費(fèi)的。 王建民:為了解決大數(shù)據(jù)人才的問(wèn)題,中國(guó)已經(jīng)有很多大學(xué)開(kāi)設(shè)了大數(shù)據(jù)教育的課程,清華數(shù)科院就有相關(guān)的碩士計(jì)劃,第一屆已經(jīng)有150名以上的學(xué)生,來(lái)自清華不同院系的師資支持這個(gè)課程,但是這個(gè)課程到底應(yīng)該怎么去上呢? 參與授課的學(xué)生基本上可以分成三類,第一類是有很強(qiáng)的IT背景,可以做很多數(shù)據(jù)工程的事情;第二類來(lái)自社會(huì)信息學(xué)的領(lǐng)域,在他的工作中有很大部分就是在處理數(shù)據(jù)。第三類人是來(lái)自傳統(tǒng)行業(yè),比如像機(jī)械工程這樣的領(lǐng)域,他們以前沒(méi)有足夠的IT知識(shí)和處理數(shù)據(jù)的技能。 我們?cè)谌ツ甑氖谡n過(guò)程中也在不斷的調(diào)整課程,我們認(rèn)為更好的解決方法,是理論和實(shí)踐結(jié)合,讓大家在學(xué)習(xí)理論課程的同時(shí)有更多的實(shí)踐機(jī)會(huì),能夠更好的去解決技能問(wèn)題。Cloudera提供的這些免費(fèi)課程將會(huì)被引進(jìn)到清華大數(shù)據(jù)碩士教育的計(jì)劃中。 11、大數(shù)據(jù)技術(shù)在中國(guó)未來(lái)會(huì)怎樣發(fā)展? 王建民:第一點(diǎn),大數(shù)據(jù)在中國(guó)的進(jìn)步會(huì)非常好,數(shù)據(jù)來(lái)源會(huì)非常多,中國(guó)有越來(lái)越多的人、越來(lái)越多的機(jī)器、越來(lái)越多的在線交易,都在產(chǎn)生大量的數(shù)據(jù)。但是在這個(gè)過(guò)程中我們要改變現(xiàn)在的文化,讓決策聽(tīng)從數(shù)據(jù)驅(qū)動(dòng)。第二點(diǎn),不要把大數(shù)據(jù)神化,認(rèn)為大數(shù)據(jù)可以做更多的事情,要有耐心把大數(shù)據(jù)和我們的業(yè)務(wù)更好的結(jié)合起來(lái)。第三點(diǎn),我們需要更多的注意安全和隱私,我們會(huì)有越來(lái)越多的數(shù)據(jù),數(shù)據(jù)安全實(shí)際上是這個(gè)發(fā)展的前提。第四點(diǎn),要更多發(fā)展中國(guó)自己的技術(shù)。 邁克:中國(guó)大數(shù)據(jù)有非常好的未來(lái),清華這邊也在做很多和大數(shù)據(jù)相關(guān)的事情,大數(shù)據(jù)在全球的發(fā)展已經(jīng)非常成功,在中國(guó)經(jīng)濟(jì)方面、社會(huì)方面都會(huì)涌現(xiàn)非常多的機(jī)會(huì)。 道克:是的,中國(guó)一定會(huì)有很多的機(jī)會(huì),而且中國(guó)的技術(shù)也已經(jīng)很先進(jìn)了,更重要的是現(xiàn)在開(kāi)源社區(qū)給了我們更多的機(jī)會(huì)去參與學(xué)習(xí)。 12、大數(shù)據(jù)技術(shù)的未來(lái)又是什么樣的? 道克:這個(gè)非常難預(yù)測(cè),現(xiàn)在不太可能會(huì)知道,如果要知道我就去做了。我認(rèn)為更可能知道的是在座的各位,如果大家有什么樣非常好的想法,可以去積極嘗試。 邁克:在中國(guó),小米正在使用Kudu,而Spark社區(qū)現(xiàn)在也變得越來(lái)越熱,這個(gè)情況在五年前我們都是見(jiàn)不到的。所以現(xiàn)在開(kāi)源社區(qū)給我們一個(gè)非常好的環(huán)境和生態(tài)系統(tǒng),像Hadoop這樣,可以幫助大家更好的去發(fā)展更多新的技術(shù)。 王建民:我們能夠看到的是,大數(shù)據(jù)系統(tǒng)對(duì)于中國(guó)的很多用戶來(lái)講,非常難使用,已有的開(kāi)源技術(shù)并不能被很好的利用起來(lái)。在我們實(shí)驗(yàn)室現(xiàn)在就有這樣一個(gè)項(xiàng)目,可以幫助大家更簡(jiǎn)化的使用今天Hadoop的系統(tǒng),是一種用機(jī)器學(xué)習(xí)的方法更多去完成自動(dòng)化的參數(shù)、自動(dòng)化的控制,我們正在做更多的努力。 邁克:這個(gè)方向很好,機(jī)器學(xué)習(xí)一定是未來(lái)的趨勢(shì),我們應(yīng)該思考怎么在更多方面結(jié)合這項(xiàng)技術(shù)。 本文授權(quán)轉(zhuǎn)自數(shù)據(jù)派(datapi) 【線上活動(dòng)報(bào)名】 活動(dòng):螞蟻金服&阿里云在線金融技術(shù)峰會(huì) 講師:8位阿里及螞蟻金服資深大V線上培訓(xùn)答疑 時(shí)間:8月30日-31日晚20:00-21:30 點(diǎn)擊文末閱讀原文鏈接直接報(bào)名 掃碼加入“大數(shù)據(jù)文摘-阿里云棲社區(qū)”,有專人指導(dǎo)報(bào)名和做相關(guān)交流。 如果掃碼入群有問(wèn)題, 請(qǐng)加微信bigdataGJJ,備注"螞蟻" 培訓(xùn)資料和錄像將在群內(nèi)第一時(shí)間公開(kāi)

本文被轉(zhuǎn)載1次

首發(fā)媒體 搜狐科技 | 轉(zhuǎn)發(fā)媒體

隨意打賞

提交建議
微信掃一掃,分享給好友吧。
主站蜘蛛池模板: 深圳办公室装修-写字楼装修设计-深圳标榜装饰公司 | 济南网站建设_济南网站制作_济南网站设计_济南网站建设公司_富库网络旗下模易宝_模板建站 | 陶瓷砂磨机,盘式砂磨机,棒销式砂磨机-无锡市少宏粉体科技有限公司 | 艾默生变频器,艾默生ct,变频器,ct驱动器,广州艾默生变频器,供水专用变频器,风机变频器,电梯变频器,艾默生变频器代理-广州市盟雄贸易有限公司官方网站-艾默生变频器应用解决方案服务商 | 气动机械手-搬运机械手-气动助力机械手-山东精瑞自动化设备有限公司 | OLChemim试剂-ABsciex耗材-广州市自力色谱科仪有限公司 | 微型实验室真空泵-无油干式真空泵-微型涡旋耐腐蚀压缩机-思科涡旋科技(杭州)有限公司 | 西安微信朋友圈广告投放_微信朋友圈推广_西安度娘网络科技有限公司 | 青州开防盗门锁-配汽车芯片钥匙-保险箱钥匙-吉祥修锁店 | CE认证_FCC认证_CCC认证_MFI认证_UN38.3认证-微测检测 CNAS实验室 | 螺杆泵_中成泵业| 艾默生变频器,艾默生ct,变频器,ct驱动器,广州艾默生变频器,供水专用变频器,风机变频器,电梯变频器,艾默生变频器代理-广州市盟雄贸易有限公司官方网站-艾默生变频器应用解决方案服务商 | 低压载波电能表-单相导轨式电能表-华邦电力科技股份有限公司-智能物联网综合管理平台 | 模具硅橡胶,人体硅胶,移印硅胶浆厂家-宏图硅胶科技 | 代办建筑资质升级-建筑资质延期就找上海国信启航 | 陶瓷砂磨机,盘式砂磨机,棒销式砂磨机-无锡市少宏粉体科技有限公司 | 上海办公室装修公司_办公室设计_直营办公装修-羚志悦装 | 流变仪-热分析联用仪-热膨胀仪厂家-耐驰科学仪器商贸 | elisa试剂盒价格-酶联免疫试剂盒-猪elisa试剂盒-上海恒远生物科技有限公司 | 安平县鑫川金属丝网制品有限公司,声屏障,高速声屏障,百叶孔声屏障,大弧形声屏障,凹凸穿孔声屏障,铁路声屏障,顶部弧形声屏障,玻璃钢吸音板 | 河南不锈钢水箱_地埋水箱_镀锌板水箱_消防水箱厂家-河南联固供水设备有限公司 | 高低温试验箱-模拟高低温试验箱订制-北京普桑达仪器科技有限公司【官网】 | 背压阀|减压器|不锈钢减压器|减压阀|卫生级背压阀|单向阀|背压阀厂家-上海沃原自控阀门有限公司 本安接线盒-本安电路用接线盒-本安分线盒-矿用电话接线盒-JHH生产厂家-宁波龙亿电子科技有限公司 | 轴流风机-鼓风机-离心风机-散热风扇-罩极电机,生产厂家-首肯电子 | Trimos测长机_测高仪_TESA_mahr,WYLER水平仪,PWB对刀仪-德瑞华测量技术(苏州)有限公司 | 粉末冶金注射成型厂家|MIM厂家|粉末冶金齿轮|MIM零件-深圳市新泰兴精密科技 | Type-c防水母座|贴片母座|耳机接口|Type-c插座-深圳市步步精科技有限公司 | 京马网,京马建站,网站定制,营销型网站建设,东莞建站,东莞网站建设-首页-京马网 | 冷藏车厂家|冷藏车价格|小型冷藏车|散装饲料车厂家|程力专用汽车股份有限公司销售十二分公司 | 知企服务-企业综合服务(ZiKeys.com)-品优低价、种类齐全、过程管理透明、速度快捷高效、放心服务,知企专家! | 骁龙云呼电销防封号系统-axb电销平台-外呼稳定『免费试用』 | 好杂志网-首页 | 室内室外厚型|超薄型|非膨胀型钢结构防火涂料_隧道专用防火涂料厂家|电话|价格|批发|施工 | 拉力机-拉力试验机-万能试验机-电子拉力机-拉伸试验机-剥离强度试验机-苏州皖仪实验仪器有限公司 | 北京自然绿环境科技发展有限公司专业生产【洗车机_加油站洗车机-全自动洗车机】 | SDG吸附剂,SDG酸气吸附剂,干式酸性气体吸收剂生产厂家,超过20年生产使用经验。 - 富莱尔环保设备公司(原名天津市武清县环保设备厂) | 动物麻醉机-数显脑立体定位仪-北京易则佳科技有限公司 | 爱佩恒温恒湿测试箱|高低温实验箱|高低温冲击试验箱|冷热冲击试验箱-您身边的模拟环境试验设备技术专家-合作热线:400-6727-800-广东爱佩试验设备有限公司 | 冷热冲击试验箱_温度冲击试验箱价格_冷热冲击箱排名_林频厂家 | 阴离子聚丙烯酰胺价格_PAM_高分子聚丙烯酰胺厂家-河南泰航净水材料有限公司 | 不发火防静电金属骨料_无机磨石_水泥自流平_修补砂浆厂家「圣威特」 |