精准猎取科技资讯,天堂视频在线观看,高效阅读科技新闻_黄色av网站在线免费观看_科技猎

七牛云大數(shù)據(jù)平臺建設(shè)實(shí)踐

我是創(chuàng)始人李巖:很抱歉!給自己產(chǎn)品做個廣告,點(diǎn)擊進(jìn)來看看。  

2017 年 1 月 14、15日,為期 2 天的 ECUG Con 十周年大會在深圳圓滿結(jié)束,會上七牛云 CEO?許式偉做了題為《七牛大數(shù)據(jù)平臺建設(shè)實(shí)踐》的演講,首次披露七牛云在大數(shù)據(jù)方向的產(chǎn)品思路,以下是對他本次的演講實(shí)錄。

從連接到智能

我們都說現(xiàn)在是移動互聯(lián)網(wǎng)時(shí)代,移動互聯(lián)網(wǎng)時(shí)代我們隨時(shí)隨地能夠上網(wǎng),面向連接的革命誕生了很多有意思的應(yīng)用,包括滴滴打車、外賣,這些都是在連接的時(shí)效性基礎(chǔ)上做的應(yīng)用。在有關(guān)于連接的革命以后,下一個階段就是面向智能的革命。滴滴打車這樣的場景未來會越來越智能,當(dāng)然百度外賣號稱現(xiàn)在在怎么送外賣這個事情上已經(jīng)有一些智能,但這些只是開始。每一個應(yīng)用會沉淀越來越多的數(shù)據(jù),它成為這些數(shù)據(jù)唯一的?Owner。大家應(yīng)該意識到一點(diǎn),圍繞著數(shù)據(jù)的深度應(yīng)用讓 App?變得智能,這件事有非常大的空間,無論你在什么領(lǐng)域。在我看來,這個智能不是云計(jì)算廠商或者大廠玩智能,未來所有的 App 都會玩智能。

在十年前,大家聽到「云計(jì)算」,大部分人覺得是不靠譜的,全球第一個云服務(wù)也就是 AWS 對象存儲,07 年剛剛發(fā)布,國內(nèi)沒有人知道,那時(shí)候的「云計(jì)算」概念雖然已經(jīng)產(chǎn)生了,但是大家對云計(jì)算的認(rèn)知非常不清楚。當(dāng)時(shí)很多人會把它和網(wǎng)格計(jì)算的概念關(guān)聯(lián)起來,而網(wǎng)格計(jì)算的概念曇花一現(xiàn),最后消失了,大家認(rèn)為云計(jì)算是新瓶裝舊酒,是網(wǎng)格計(jì)算。但在今天看來,云計(jì)算本質(zhì)上是一個 IT 的革命,把 IT 的交付方式由軟件變成了服務(wù),這是一個非常巨大的變革。這個變革背后的推動力其實(shí)是與移動互聯(lián)網(wǎng)的興起有關(guān)的。移動互聯(lián)網(wǎng)的興起意味著大量新興機(jī)會的涌現(xiàn),大家拼命地都要跑得更快。這些新興的公司選擇合作伙伴更希望是服務(wù)的合作伙伴,而不是軟件合作伙伴。軟件外包失敗的概率是很大的,但是云計(jì)算解決了底層基礎(chǔ)的 IT 技術(shù)外包成功率的問題,這也是云計(jì)算興起的根源。

今天我們聽到很多公司談智能,忽悠的成分可能多于實(shí)際。而大部分公司認(rèn)為智能跟自己沒有關(guān)系,但是我認(rèn)為接下來十年智能是非常重要的事情。

智能為什么會興起?大部分的公司接下來十年都會開始充分利用互聯(lián)網(wǎng)這個生產(chǎn)力工具,把他們的業(yè)務(wù)從線下搬上了線上,這意味著他和客戶的連接其實(shí)是越來越數(shù)字化的。所謂的數(shù)字化,是指所有的溝通過程都會被記錄,這種被記錄的過程其實(shí)是很可怕的,因?yàn)槟銓τ脩羟八从械亓私狻5侨绻屵@些數(shù)據(jù)躺在你的計(jì)算機(jī)里或者刪掉,意味著你相比以前純粹地把業(yè)務(wù)跑在線下沒有本質(zhì)的進(jìn)步。將來各行各業(yè)的競爭一定是面向數(shù)據(jù)的競爭,數(shù)據(jù)累計(jì)得越多,你對用戶越了解,你對用戶行為的挖掘,通過智能的提取,你會讓 App?越來越具有獨(dú)特性。前面李玥介紹了?Linkedin?如何使用數(shù)據(jù),那是非常好的一個案例。Linkedin 本質(zhì)上來講是一個獵頭公司,雖然它比很多大家認(rèn)知的獵頭公司要牛多了。但在本質(zhì)上來講,它是顛覆獵頭行業(yè)的,新的獵頭和老的獵頭效率差距無比巨大。Linkedin 僅數(shù)據(jù)產(chǎn)品相關(guān)的團(tuán)隊(duì)就有 150 人,這是很恐怖的數(shù)字,可以看出硅谷公司是怎樣的重視數(shù)據(jù)。

企業(yè)面臨的挑戰(zhàn)

觀念帶來的挑戰(zhàn)。 我們作為一個云計(jì)算廠商來看,多數(shù)公司的數(shù)據(jù)都不愿意存,認(rèn)為數(shù)據(jù)是負(fù)擔(dān)、是成本。但是在未來十年面向智能的時(shí)候,你應(yīng)該認(rèn)為數(shù)據(jù)是資本、是財(cái)產(chǎn)。這個觀念的轉(zhuǎn)念是非常巨大的。中國公司數(shù)據(jù)倉庫存數(shù)十 PB,會覺得每個月要花掉好多錢。多數(shù)公司認(rèn)為數(shù)據(jù)是成本,這是觀念的挑戰(zhàn),可能也是未來最大的挑戰(zhàn)。

數(shù)據(jù)產(chǎn)生價(jià)值鏈條長。 不知道數(shù)據(jù)怎么用,或者沒有支撐的數(shù)據(jù)平臺。對于很多公司來說,把數(shù)據(jù)變成數(shù)據(jù)產(chǎn)品的鏈條是非常長的。整個數(shù)據(jù)從埋點(diǎn)、采集、分析、形成一系列產(chǎn)品,整個鏈條涉及的部門和工種非常多。涉及到業(yè)務(wù)部門、數(shù)據(jù)平臺部門、數(shù)據(jù)分析與數(shù)據(jù)產(chǎn)品部門,而后又回到業(yè)務(wù)部門作用到線上,這個周期非常長。這決定了要讓數(shù)據(jù)產(chǎn)生價(jià)值很困難。

多元化的場景。 不同的公司業(yè)務(wù)場景不同,導(dǎo)致我們的數(shù)據(jù)產(chǎn)品很難用統(tǒng)一的模式產(chǎn)生。這與七牛的非結(jié)構(gòu)化數(shù)據(jù)相比非常明顯。七牛的數(shù)據(jù)是圖片、音頻、視頻,圍繞這些富媒體為存儲的核心對象來構(gòu)建場景,它的應(yīng)用場景非常集中。非常集中就是說可預(yù)測性非常強(qiáng),雖然我未必知道你的 App 是做什么的,但是我很清楚你的圖片是用來做什么、你的視頻用來做什么,業(yè)務(wù)場景比較容易清晰地呈現(xiàn)。但是大數(shù)據(jù)產(chǎn)品的業(yè)務(wù)場景非常是多元化的,不同的數(shù)據(jù)產(chǎn)品,面向的場景很不一樣。

七牛大數(shù)據(jù)平臺 -?Pandora

Pandora 是什么

Pandora 是一套數(shù)據(jù)采集、存儲和分析為一體的 PaaS 平臺,圍繞著富媒體的業(yè)務(wù)場景構(gòu)建,用戶的各種業(yè)務(wù)場景我們都能夠直接找到對應(yīng)的解決方案。我們對 Pandora 的定位是希望它是一站式的數(shù)據(jù)處理服務(wù),能夠開放性地為七牛的客戶解決他希望的大數(shù)據(jù)相關(guān)的業(yè)務(wù)場景。

Pandora 有什么

七牛云大數(shù)據(jù)平臺建設(shè)實(shí)踐

圖 1

如圖 1 所示,第一部分是 Pipeline,其他部分是圍繞 Pipeline 協(xié)同的。另外,有很多和 Pipeline 相連的部分,包括前面演講介紹的?Kylin 也可以是其中之一。我們現(xiàn)在內(nèi)建支持的東西包括七牛自己的時(shí)序數(shù)據(jù)庫 TSDB、日志搜索引擎 LogDB、對象存儲服務(wù)、關(guān)系型數(shù)據(jù)庫、離線計(jì)算服務(wù)等。

Pandora 產(chǎn)品架構(gòu)圖

七牛云大數(shù)據(jù)平臺建設(shè)實(shí)踐

圖 2

圖 2 是?Pandora 的產(chǎn)品架構(gòu)圖。其中?Pipeline 是一個數(shù)據(jù)總線的概念,數(shù)據(jù)通過 Pipeline 進(jìn)來,打造一個臨時(shí)儲存數(shù)據(jù)的空間,比如我可以定義 7 天,即原始數(shù)據(jù)點(diǎn)可以在 Pipeline 里面存 7 天,然后數(shù)據(jù)經(jīng)過變換,比如聚合成 1 分鐘或者 1 天的數(shù)據(jù),對它變換以后進(jìn)入到另外一個?Pipeline?的空間。為什么叫 Pipeline?它把建立數(shù)據(jù)和數(shù)據(jù)變換進(jìn)行串聯(lián),這個串聯(lián)可以是任意級別的。數(shù)據(jù)在 Pipeline 里流轉(zhuǎn)以后,適當(dāng)?shù)臅r(shí)候會導(dǎo)入到分析引擎,這些分析引擎是多樣化的,同時(shí)還可以導(dǎo)出到?Kodo + XSpark(七牛對象存儲 + 離線分析引擎)、LogDB(類似ElasticSearch,日志搜索引擎)、TSDB(時(shí)間序列數(shù)據(jù)庫),以及其他服務(wù)等。

Pipeline——數(shù)據(jù)總線

什么是數(shù)據(jù)總線?企業(yè)內(nèi)部的數(shù)據(jù)都經(jīng)過數(shù)據(jù)總線,數(shù)據(jù)總線的數(shù)據(jù)想流動到哪里都可以。數(shù)據(jù)接入,數(shù)據(jù)來源可以多樣化,可以來自業(yè)務(wù),可以來自日志數(shù)據(jù)、監(jiān)控?cái)?shù)據(jù)、實(shí)時(shí)數(shù)據(jù)等。這些數(shù)據(jù)進(jìn)來以后,最后會通過數(shù)據(jù)的變換,Pipeline 可以認(rèn)為是一個實(shí)時(shí)計(jì)算,它可以定義一些數(shù)據(jù)的變換,再去把一個 Pipeline 或者多個 Pipeline 里面的東西去聚合。最后,這些數(shù)據(jù)導(dǎo)出到 TSDB、LogDB、Kodo、MySQL/MongoDB 等。分析引擎在我們看來是非常多樣化的,會跟你的需求密切相關(guān)。我們認(rèn)為,你要抽象一個大數(shù)據(jù)的產(chǎn)品,最重要的是要抽象出數(shù)據(jù)總線。

Kodo+XSpark——離線計(jì)算

七牛云大數(shù)據(jù)平臺建設(shè)實(shí)踐

圖 3

為什么是 Kodo (七牛對象存儲)而不是?Hadoop?HDFS?這是因?yàn)槲覀冋J(rèn)為?Kodo 比 HDFS 做得更好。首先,Kodo 對元數(shù)據(jù)的支持比 HDFS 要好的多,七牛的?Kodo?對象存儲支持那么多的客戶,我們很多客戶一天就是幾億個文件進(jìn)來,Kodo 對象存儲的規(guī)模絕對不是 HDFS 能夠搞定的。另外,七牛的對象存儲能夠支持小到只有 1 個字節(jié)、大到單文件近?TB 級別的規(guī)模。其次,Kodo 比 HDFS 的成本低得多,HDFS 默認(rèn)會有 3 份數(shù)據(jù),而 Kodo 將存儲冗余度從 3 副本降低至 1.14 副本。所以站在七牛的角度來講,我們沒有必要再去基于 HDFS,而是讓?Spark?去支持七牛的 Kodo 對象存儲。

TSDB——時(shí)序數(shù)據(jù)庫

七牛云大數(shù)據(jù)平臺建設(shè)實(shí)踐

圖 4

LogDB——日志搜索引擎

LogoDB?除了能夠提供海量日志的存儲與搜索,同時(shí)還支持對日志索引進(jìn)行時(shí)限的限制(retention)。LogDB?對運(yùn)維人員定位問題是非常有好處的,如果沒有這種數(shù)據(jù)平臺的話,我們可能要用?awk?或者?grep?這樣原始的指令來查找問題,但是用 LogDB 可以協(xié)助快速地定位和解決問題。?大部分日志數(shù)據(jù)的搜索場景,基本上是短期的目的,無論是出于運(yùn)維的考慮還是客服的目的,基本上把日志索引建到一個星期左右就差不多了。但是開源的搜索引擎不是面向這種場景,它需要你自己去做一些日志索引的改造。

Pandora 的基礎(chǔ)邏輯

沒有一個數(shù)據(jù)分析引擎可以解決所有的數(shù)據(jù)分析需求,能夠統(tǒng)一實(shí)現(xiàn)的是數(shù)據(jù)總線(Pipeline),管理數(shù)據(jù)的流動過程。

每個數(shù)據(jù)分析系統(tǒng)做好它關(guān)注的一件事情(而不是做越來越多的事情),如果輸出還需要進(jìn)一步處理,盡可能讓它再重新流入到?Pipeline。

每一個分析系統(tǒng)分析的場景不一樣,它背后的分析結(jié)構(gòu)是不一樣的,我們需要每一個系統(tǒng)只關(guān)注一小塊,這樣可以足夠的解耦。整個系統(tǒng)最核心的就是 Pipeline,把大數(shù)據(jù)的各種系統(tǒng)進(jìn)行串聯(lián)。

基于 Pandora 的應(yīng)用場景

場景:視頻直播的質(zhì)量運(yùn)營

我們關(guān)心的維度: 直播質(zhì)量的實(shí)時(shí)報(bào)表、日志搜索、各 CDN 廠商的質(zhì)量評估、異常情況的告警。很多直播的平臺都是請了主播,這些主播特別貴,一旦出問題就是大問題。大家可能會覺得這只是萬分之一的概率,但是萬分之一到他請的主播上就是大事,所以他會有很多面向個體分析的場景,所以需要日志搜索。站在更高的維度來講,每個直播的需求方都會有多個 CDN 廠商同時(shí)提供服務(wù),直播平臺希望這個時(shí)候能對 CDN 廠商進(jìn)行質(zhì)量評估,也會有一些人提出更高級的需求,比如對異常情況預(yù)警、自動觸發(fā)流量調(diào)度等。

直播質(zhì)量的實(shí)時(shí)報(bào)告

七牛云大數(shù)據(jù)平臺建設(shè)實(shí)踐

圖 5

直播特別關(guān)心用戶看到的第一屏的時(shí)間,用戶發(fā)起直播到看到第一屏的時(shí)間我們叫首開時(shí)間,這些我們會產(chǎn)生一些相關(guān)的報(bào)表,并且是實(shí)時(shí)的。如果出現(xiàn)問題了,我們會看到針對不同的直播 CDN 供應(yīng)商的質(zhì)量考量,如圖 5 所示。

七牛云大數(shù)據(jù)平臺建設(shè)實(shí)踐

圖 6

卡頓率也是直播質(zhì)量考量的一個維度,如圖 6 所示,我們可以看到關(guān)于卡頓率的熱點(diǎn)圖。站在全國的維度來看卡頓率,圖中越紅的地方表示卡頓率越高,質(zhì)量越差。

日志搜索

七牛云大數(shù)據(jù)平臺建設(shè)實(shí)踐

圖 7

日志搜索主要是面向客服的場景,比如說某一個主播有卡頓,我們需要找到這個主播相關(guān)的條件去搜索,最后把服務(wù)端甚至客戶端即 SDK 端報(bào)上來的數(shù)據(jù)整合,來看問題到底發(fā)生在哪里。

我們用了什么

基本上把 Pandora 的服務(wù)都用了:

Pipeline: 數(shù)據(jù)總線、對數(shù)據(jù)做基礎(chǔ)的聚合(1 min,1 day);

TSDB:實(shí)時(shí)數(shù)據(jù)分析;

LogDB:日志搜索;

XSpark:高級離線數(shù)據(jù)分析(各廠商的質(zhì)量評估)。

以上是我演講的內(nèi)容,整個 Pandora 的定位是一站式、開放式的大數(shù)據(jù)平臺。謝謝!

Q

數(shù)據(jù)類型有很多種,我們公司目前僅僅是做日志分析。在收集數(shù)據(jù)的時(shí)候,可能會關(guān)注哪一部分的數(shù)據(jù)?

許式偉: 這和需求有密切關(guān)系。你的分析一定是跟需求相關(guān)的,比如說游戲,你希望分析道具相關(guān)的,你就需要把道具相關(guān)的數(shù)據(jù)導(dǎo)到平臺里面。

Q

數(shù)據(jù)來源可以是多方面?

許式偉: 對。埋點(diǎn)部分是沒有辦法解決的,這是要到業(yè)務(wù)系統(tǒng)中去做的事情。

Q

這個產(chǎn)品的定位,會考慮部署到企業(yè)內(nèi)部?因?yàn)檫@個數(shù)據(jù)很多用戶可能對數(shù)據(jù)比較敏感,希望用你這個產(chǎn)品功能,但是不需要把數(shù)據(jù)放到上面?

許式偉: 這個我們私下聊吧。我們是可以支持部署到客戶?IDC?的,但是是有條件的。我們認(rèn)為云計(jì)算最大的變化是由軟件變成服務(wù),所以我們希望 Pandora 的發(fā)布形態(tài)不是個軟件。在這個前提下更多細(xì)節(jié)可以再討論。

本文被轉(zhuǎn)載1次

首發(fā)媒體 百度百家 | 轉(zhuǎn)發(fā)媒體

隨意打賞

阿里云大數(shù)據(jù)平臺大數(shù)據(jù)平臺架構(gòu)星云大數(shù)據(jù)云大數(shù)據(jù)
提交建議
微信掃一掃,分享給好友吧。
主站蜘蛛池模板: 深圳激光打标机_激光打标机_激光焊接机_激光切割机_同体激光打标机-深圳市创想激光科技有限公司 深圳快餐店设计-餐饮设计公司-餐饮空间品牌全案设计-深圳市勤蜂装饰工程 | 洛阳装修公司-洛阳整装一站式品牌-福尚云宅装饰| 防水套管_柔性防水套管_刚性防水套管-巩义市润达管道设备制造有限公司 | 哈尔滨治「失眠/抑郁/焦虑症/精神心理」专科医院排行榜-京科脑康免费咨询 一对一诊疗 | 粉丝机械,粉丝烘干机,粉丝生产线-招远市远东粉丝机械有限公司 | PCB厂|线路板厂|深圳线路板厂|软硬结合板厂|电路板生产厂家|线路板|深圳电路板厂家|铝基板厂家|深联电路-专业生产PCB研发制造 | 蓄电池回收,ups电池后备电源回收,铅酸蓄电池回收,机房电源回收-广州益夫铅酸电池回收公司 | 升降机-高空作业车租赁-蜘蛛车-曲臂式伸缩臂剪叉式液压升降平台-脚手架-【普雷斯特公司厂家】 | 罗氏牛血清白蛋白,罗氏己糖激酶-上海嵘崴达实业有限公司 | 密集架|电动密集架|移动密集架|黑龙江档案密集架-大量现货厂家销售 | 谷歌关键词优化-外贸网站优化-Google SEO小语种推广-思亿欧外贸快车 | 不锈钢复合板厂家_钛钢复合板批发_铜铝复合板供应-威海泓方金属复合材料股份有限公司 | 不锈钢复合板|钛复合板|金属复合板|南钢集团安徽金元素复合材料有限公司-官网 | 口臭的治疗方法,口臭怎么办,怎么除口臭,口臭的原因-口臭治疗网 | 康明斯发电机,上柴柴油发电机,玉柴柴油发电机组_海南重康电力官网 | 耐高温电缆厂家-远洋高温电缆 | 泰兴市热钻机械有限公司-热熔钻孔机-数控热熔钻-热熔钻孔攻牙一体机 | 龙门加工中心-数控龙门加工中心厂家价格-山东海特数控机床有限公司_龙门加工中心-数控龙门加工中心厂家价格-山东海特数控机床有限公司 | 杭州网络公司_百度SEO优化-外贸网络推广_抖音小程序开发-杭州乐软科技有限公司 | 清管器,管道清管器,聚氨酯发泡球,清管球 - 承德嘉拓设备 | 螺旋压榨机-刮泥机-潜水搅拌机-电动泥斗-潜水推流器-南京格林兰环保设备有限公司 | 智慧钢琴-电钢琴-便携钢琴-数码钢琴-深圳市特伦斯乐器有限公司 | 水性漆|墙面漆|木器家具漆|水漆涂料_晨阳水漆官网 | 喷砂机厂家_自动喷砂机生产_新瑞自动化喷砂除锈设备 | 仿古建筑设计-仿古建筑施工-仿古建筑公司-汉匠古建筑设计院 | 塑胶跑道_学校塑胶跑道_塑胶球场_运动场材料厂家_中国塑胶跑道十大生产厂家_混合型塑胶跑道_透气型塑胶跑道-广东绿晨体育设施有限公司 | 护腰带生产厂家_磁石_医用_热压护腰_登山护膝_背姿矫正带_保健护具_医疗护具-衡水港盛 | 新能源汽车教学设备厂家报价[汽车教学设备运营18年]-恒信教具 | 茅茅虫AI论文写作助手-免费AIGC论文查重_写毕业论文降重 | 北京公积金代办/租房发票/租房备案-北京金鼎源公积金提取服务中心 | 电杆荷载挠度测试仪-电杆荷载位移-管桩测试仪-北京绿野创能机电设备有限公司 | 家乐事净水器官网-净水器厂家「官方」| 三氯异氰尿酸-二氯-三氯-二氯异氰尿酸钠-优氯净-强氯精-消毒片-济南中北_优氯净厂家 | 石家庄救护车出租_重症转院_跨省跨境医疗转送_活动赛事医疗保障_康复出院_放弃治疗_腾康26年医疗护送转诊团队 | 耐酸泵,耐腐蚀真空泵,耐酸真空泵-淄博华舜耐腐蚀真空泵有限公司 精密模具-双色注塑模具加工-深圳铭洋宇通 | 传爱自考网_传爱自学考试网 | 示波器高压差分探头-国产电流探头厂家-南京桑润斯电子科技有限公司 | 标准件-非标紧固件-不锈钢螺栓-非标不锈钢螺丝-非标螺母厂家-三角牙锁紧自攻-南京宝宇标准件有限公司 | 安全,主动,被动,柔性,山体滑坡,sns,钢丝绳,边坡,防护网,护栏网,围栏,栏杆,栅栏,厂家 - 护栏网防护网生产厂家 | 截齿|煤截齿|采煤机截齿|掘进机截齿|旋挖截齿-山东卓力截齿厂家报价 | 武汉不干胶印刷_标签设计印刷_不干胶标签印刷厂 - 武汉不干胶标签印刷厂家 |