精准猎取科技资讯,天堂视频在线观看,高效阅读科技新闻_黄色av网站在线免费观看_科技猎

機(jī)器學(xué)習(xí)——海量數(shù)據(jù)挖掘解決方案

我是創(chuàng)始人李巖:很抱歉!給自己產(chǎn)品做個(gè)廣告,點(diǎn)擊進(jìn)來(lái)看看。  

大 數(shù)據(jù) 時(shí)代里,互聯(lián)網(wǎng) 用戶 每天都會(huì)直接或間接使用到 大數(shù)據(jù) 技術(shù)的成果,直接面向用戶的比如搜索引擎的排序結(jié)果,間接影響用戶的比如網(wǎng)絡(luò)游戲的流失用戶預(yù)測(cè)、 支付 平臺(tái)的欺詐交易監(jiān)測(cè)等等。達(dá)觀數(shù)據(jù)技術(shù)團(tuán)隊(duì)開發(fā)過(guò)智能文本內(nèi)容審核系統(tǒng)、作弊監(jiān)測(cè)系統(tǒng)、用戶建模系統(tǒng)等多個(gè)基于大數(shù)據(jù)技術(shù)的應(yīng)用系統(tǒng)。機(jī)器學(xué)習(xí)是大數(shù)據(jù)挖掘的一大基礎(chǔ),本文以機(jī)器學(xué)習(xí)為切入點(diǎn),將達(dá)觀在 數(shù)據(jù) 技術(shù)實(shí)踐時(shí)的一些經(jīng)驗(yàn)與大家分享。

互聯(lián)網(wǎng)的海量數(shù)據(jù)不可能靠人工一個(gè)個(gè)處理,只能依靠計(jì)算機(jī)批量處理。最初的做法是人為設(shè)定好一些規(guī)則,由機(jī)器來(lái)執(zhí)行。比如明確指定計(jì)算機(jī)給男性、30歲的用戶推送汽車廣告。很明顯如此粗略的規(guī)則不會(huì)有好效果,因?yàn)閷?duì)人群的定位不夠精確。要提高精度必須增加對(duì)用戶的特征描述。但特征一多規(guī)則就很難制定,即使定下了規(guī)則也沒(méi)法根據(jù)實(shí)際情況靈活變化。機(jī)器學(xué)習(xí)可以很好的解決以上問(wèn)題,從一定程度上賦予了計(jì)算機(jī)以“學(xué)習(xí)”的能力,使得千人千面成為可能。

機(jī)器學(xué)習(xí)——海量數(shù)據(jù)挖掘解決方案

圖 1 面對(duì)大量的特征,人工難以確定使用的規(guī)則

有監(jiān)督機(jī)器學(xué)習(xí)技術(shù)

機(jī)器學(xué)習(xí)以統(tǒng)計(jì)學(xué)為理論基礎(chǔ),利用算法讓機(jī)器具有類似人類一般的自動(dòng)“學(xué)習(xí)”能力,即對(duì)已知的訓(xùn)練數(shù)據(jù)做統(tǒng)計(jì)分析從而獲得規(guī)律,再運(yùn)用規(guī)律對(duì)未知數(shù)據(jù)做預(yù)測(cè)分析。機(jī)器學(xué)習(xí)主要包含四大類別: 有監(jiān)督學(xué)習(xí),無(wú)監(jiān)督學(xué)習(xí),半監(jiān)督學(xué)習(xí)和增強(qiáng)學(xué)習(xí)。

有監(jiān)督學(xué)習(xí),顧名思義,是在“人類監(jiān)督”下學(xué)習(xí),要求訓(xùn)練數(shù)據(jù)既有特征也有目標(biāo),目標(biāo)是人為設(shè)定好的。以文本分類為例,一篇文章的字、詞、句、段是其特征(文本的內(nèi)容是什么),文章的類別(時(shí)事、科技、娛樂(lè)等等)就是目標(biāo)。訓(xùn)練集文章的類別是人為設(shè)定的,相當(dāng)于明確告訴機(jī)器什么樣的內(nèi)容該屬于什么類別,機(jī)器在此基礎(chǔ)上總結(jié)規(guī)律。無(wú)監(jiān)督學(xué)習(xí)就是數(shù)據(jù)只有特征沒(méi)有目標(biāo),最常見(jiàn)的算法是聚類。聚類算法會(huì)把相似的樣本聚集成一個(gè)子集,優(yōu)點(diǎn)是數(shù)據(jù)無(wú)需人工標(biāo)注,但缺點(diǎn)也很明顯——無(wú)法給出子集的實(shí)際含義。半監(jiān)督學(xué)習(xí)介于有監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)之間,其訓(xùn)練集數(shù)據(jù)有一小部分是人工標(biāo)注過(guò)的。增強(qiáng)學(xué)習(xí)強(qiáng)調(diào)基于環(huán)境而行動(dòng),在探索未知領(lǐng)域和遵從現(xiàn)有只是之間尋求平衡。

有監(jiān)督學(xué)習(xí)的研究起步較早,方法比較成熟。在大多數(shù)應(yīng)用場(chǎng)景中,我們希望機(jī)器輸出的結(jié)果具有實(shí)際含義,比如文本分類就是讓機(jī)器告訴我們一篇文章是時(shí)事還是科技類文章。這樣的場(chǎng)景下有監(jiān)督學(xué)習(xí)也更為適用。有監(jiān)督學(xué)習(xí)主要包含回歸分析和統(tǒng)計(jì)分類兩大類算法。

回歸分析——預(yù)估點(diǎn)擊率的利器

回歸分析建模的是自變量和因變量之間的相關(guān)關(guān)系(如圖2所示),在機(jī)器學(xué)習(xí)領(lǐng)域,自變量是樣本的特征向量,因變量是預(yù)測(cè)值。回歸分析最經(jīng)典的應(yīng)用場(chǎng)景是廣告點(diǎn)擊率(CTR)預(yù)估。簡(jiǎn)單而言,CTR預(yù)估是根據(jù)用戶數(shù)據(jù)和廣告數(shù)據(jù),估計(jì)用戶點(diǎn)擊某個(gè)廣告的可能性大小。我們假設(shè)用戶數(shù)據(jù)+廣告數(shù)據(jù)和廣告點(diǎn)擊率之間的關(guān)系符合某個(gè)分布,使用回歸分析方法在已有點(diǎn)擊數(shù)據(jù)上擬合出該分布。達(dá)觀科技在線上預(yù)測(cè)時(shí)就把用戶數(shù)據(jù)和廣告數(shù)據(jù)作為輸出傳給擬合出的分布,得到用戶點(diǎn)擊該廣告的概率值。

機(jī)器學(xué)習(xí)——海量數(shù)據(jù)挖掘解決方案

圖 2 回歸分析示意圖

統(tǒng)計(jì)分類——被廣泛應(yīng)用的機(jī)器學(xué)習(xí)方法

統(tǒng)計(jì)分類要解決的問(wèn)題是,如何將一個(gè)樣本點(diǎn)分到類別集合中的一個(gè)或多個(gè)類,比如圖3所表示的就是將數(shù)據(jù)分為3個(gè)類。

機(jī)器學(xué)習(xí)——海量數(shù)據(jù)挖掘解決方案

圖 3 統(tǒng)計(jì)分類示意圖

現(xiàn)實(shí)場(chǎng)景中我們往往需要把數(shù)據(jù)分成不同的類別,以方便我們分析和使用,因而統(tǒng)計(jì)分類方法具有廣闊的應(yīng)用范圍。達(dá)觀數(shù)據(jù)團(tuán)隊(duì)開發(fā)的用戶建模、內(nèi)容審核系統(tǒng)、反作弊系統(tǒng)等都使用到了統(tǒng)計(jì)分類模型。比如反作弊系統(tǒng),目的是區(qū)分用戶行為是否作弊,抽象出來(lái)就是個(gè)分類問(wèn)題:輸入是用戶的各種行為數(shù)據(jù)經(jīng)過(guò)處理后得到的特征,輸出只有兩個(gè)類別——“作弊”和“非作弊”。接下來(lái)我就簡(jiǎn)單介紹一下最具代表性的分類算法——支持向量機(jī)(Support Vector Machine, SVM),一窺機(jī)器學(xué)習(xí)的工作原理。SVM絕不是入門級(jí)的機(jī)器學(xué)習(xí)算法,選擇介紹它是因?yàn)椋瑱C(jī)器學(xué)習(xí)需要解決的數(shù)據(jù)線性不可分、過(guò)擬合等問(wèn)題,SVM都給出了比較可靠的解決方案,借此我們也可以對(duì)機(jī)器學(xué)習(xí)有個(gè)大概的認(rèn)識(shí)。

理想情況下SVM的理論模型

SVM針對(duì)分類問(wèn)題的前提假設(shè)直觀易懂,由此推演出的模型求解過(guò)程也是順理成章一氣呵成。我們通常先從最簡(jiǎn)單的情況入手,假設(shè)數(shù)據(jù)是線性可分的。SVM認(rèn)為此時(shí)的最優(yōu)分類面,是使得樣本集到分類面的最小幾何距離最大化的超平面,這個(gè)距離成為“間隔(margin)”。如圖4所示,黑色實(shí)線就是最優(yōu)分類面,兩邊兩條虛線之間的幾何距離就是此時(shí)的最優(yōu)間隔。數(shù)據(jù)點(diǎn)離分類面越遠(yuǎn),分類的置信度也越高。

機(jī)器學(xué)習(xí)——海量數(shù)據(jù)挖掘解決方案

圖 4 SVM最優(yōu)分類面示意圖

SVM假設(shè)線性分類面的函數(shù)形式為

(1)

鑒于篇幅關(guān)系,我們略去推導(dǎo)過(guò)程。在最大化間隔的假設(shè)下,可以得到SVM的原目標(biāo)函數(shù)為:

(2)

其中表示第i個(gè)樣本的特征向量,是第i個(gè)樣本的類標(biāo)簽,SVM令。由約束條件可知,樣本點(diǎn)必然落在最優(yōu)間隔的邊緣(圖4中虛線)上或外面,通過(guò)推導(dǎo)分析最終可以知道,只有落在間隔邊緣上的少量數(shù)據(jù)點(diǎn)決定了分類面,這些樣本被稱為支持向量,而其他的點(diǎn)沒(méi)有任何作用。這一特性大大節(jié)省了求解SVM的計(jì)算量。

線性不可分情況的處理

按照達(dá)觀數(shù)據(jù)的經(jīng)驗(yàn),真實(shí)環(huán)境的問(wèn)題往往是線性不可分的,數(shù)據(jù)采集的時(shí)候也不可避免的會(huì)引入噪聲。應(yīng)對(duì)這兩種情況只需對(duì)原始SVM模型做有限的一點(diǎn)改進(jìn)。針對(duì)數(shù)據(jù)線性不可分的情況,SVM通過(guò)引入核函數(shù)(Kernel Function)將數(shù)據(jù)映射到高維空間來(lái)解決,圖5直觀的表示了映射的過(guò)程。核函數(shù)實(shí)際上是兩個(gè)數(shù)據(jù)點(diǎn)在高維空間中的內(nèi)積。它先在原空間進(jìn)行計(jì)算再將結(jié)果映射到高維空間,避免了先把數(shù)據(jù)點(diǎn)映射到高維空間再計(jì)算所可能導(dǎo)致的維數(shù)災(zāi)難問(wèn)題。核函數(shù)可以從容的處理包括無(wú)限維在內(nèi)的任何特征空間映射。

機(jī)器學(xué)習(xí)——海量數(shù)據(jù)挖掘解決方案

圖 5 SVM核函數(shù)的作用原理圖

SVM如何規(guī)避過(guò)擬合

過(guò)擬合(Overfitting)表現(xiàn)為在訓(xùn)練數(shù)據(jù)上模型的預(yù)測(cè)錯(cuò)誤很低,在未知數(shù)據(jù)上預(yù)測(cè)錯(cuò)誤卻很高。圖6的藍(lán)色曲線代表訓(xùn)練錯(cuò)誤,紅色曲線代表真實(shí)錯(cuò)誤,可以看到隨著模型復(fù)雜度的升高,模型對(duì)訓(xùn)練數(shù)據(jù)的擬合程度越好(訓(xùn)練錯(cuò)誤越低),但到了一定程度之后真實(shí)錯(cuò)誤反而上升,即為過(guò)擬合。

機(jī)器學(xué)習(xí)——海量數(shù)據(jù)挖掘解決方案

圖 6 過(guò)擬合

過(guò)擬合主要源于我們采集的訓(xùn)練樣本帶有噪聲,有部分樣本嚴(yán)重偏離其正常位置,統(tǒng)計(jì)學(xué)上稱之為outlier。前面已經(jīng)提到,決定SVM最優(yōu)分類面的只是占少數(shù)的支持向量,如果碰巧這些支持向量中存在outlier,而我們又要求SVM盡可能完美的去擬合這樣的數(shù)據(jù),得到的分類面可能就會(huì)有問(wèn)題。如圖7所示,黑色加粗虛線代表最優(yōu)分類面,帶黑圈的藍(lán)色數(shù)據(jù)點(diǎn)代表outlier。可以看到outlier嚴(yán)重偏離了正常藍(lán)色數(shù)據(jù)點(diǎn)的位置,所在位置又恰巧使其成為了支持向量,導(dǎo)致了最終的分類面(深紅色實(shí)線)嚴(yán)重偏離最優(yōu)分類面。


2016-4-8 10:51 | 來(lái)自: 紀(jì)傳俊

本文被轉(zhuǎn)載2次

首發(fā)媒體 互聯(lián)網(wǎng)分析沙龍 | 轉(zhuǎn)發(fā)媒體

隨意打賞

提交建議
微信掃一掃,分享給好友吧。
主站蜘蛛池模板: 上海恒驭仪器有限公司-实验室平板硫化机-小型平板硫化机-全自动平板硫化机 | YT保温材料_YT无机保温砂浆_外墙保温材料_南阳银通节能建材高新技术开发有限公司 | 防爆型气象站_农业气象站_校园气象站_农业四情监测系统「山东万象环境科技有限公司」 | 房在线-免费房产管理系统软件-二手房中介房屋房源管理系统软件 | 真空泵厂家_真空泵机组_水环泵_旋片泵_罗茨泵_耐腐蚀防爆_中德制泵 | 世纪豪门官网 世纪豪门集成吊顶加盟电话 世纪豪门售后电话 | 塑料检查井_双扣聚氯乙烯增强管_双壁波纹管-河南中盈塑料制品有限公司 | 青岛球场围网,青岛车间隔离网,青岛机器人围栏,青岛水源地围网,青岛围网,青岛隔离栅-青岛晟腾金属制品有限公司 | 采暖炉_取暖炉_生物质颗粒锅炉_颗粒壁炉_厂家加盟批发_烟台蓝澳采暖设备有限公司 | 哈希PC1R1A,哈希CA9300,哈希SC4500-上海鑫嵩实业有限公司 | 干式磁选机_湿式磁选机_粉体除铁器-潍坊国铭矿山设备有限公司 | 雨水收集系统厂家-雨水收集利用-模块雨水收集池-徐州博智环保科技有限公司 | 户外健身路径_小区健身器材_室外健身器材厂家_价格-浩然体育 | 千斤顶,液压千斤顶-力良企业,专业的液压千斤顶制造商,shliliang.com | 氧化铝球_高铝球_氧化铝研磨球-淄博誉洁陶瓷新材料有限公司 | 安徽净化工程设计_无尘净化车间工程_合肥净化实验室_安徽创世环境科技有限公司 | 品牌策划-品牌设计-济南之式传媒广告有限公司官网-提供品牌整合丨影视创意丨公关活动丨数字营销丨自媒体运营丨数字营销 | 电磁流量计厂家_涡街流量计厂家_热式气体流量计-青天伟业仪器仪表有限公司 | PAS糖原染色-CBA流式多因子-明胶酶谱MMP-上海研谨生物科技有限公司 | 钢结构-钢结构厂房-钢结构工程[江苏海逵钢构厂] | 水质监测站_水质在线分析仪_水质自动监测系统_多参数水质在线监测仪_水质传感器-山东万象环境科技有限公司 | 苏州工作服定做-工作服定制-工作服厂家网站-尺品服饰科技(苏州)有限公司 | 专业广州网站建设,微信小程序开发,一物一码和NFC应用开发、物联网、外贸商城、定制系统和APP开发【致茂网络】 | 金库门,金库房,金库门厂家,金库门价格-河北特旺柜业有限公司 | GAST/BRIWATEC/CINCINNATI/KARL-KLEIN/ZIEHL-ABEGG风机|亚喜科技 | 长沙中央空调维修,中央空调清洗维保,空气能热水工程,价格,公司就找维小保-湖南维小保环保科技有限公司 | 皮带机_移动皮带机_大倾角皮带机_皮带机厂家 - 新乡市国盛机械设备有限公司 | PE一体化污水处理设备_地埋式生活污水净化槽定制厂家-岩康塑业 | 软文推广发布平台_新闻稿件自助发布_媒体邀约-澜媒宝 | 信阳网站建设专家-信阳时代网联-【信阳网站建设百度推广优质服务提供商】信阳网站建设|信阳网络公司|信阳网络营销推广 | 青岛侦探调查_青岛侦探事务所_青岛调查事务所_青岛婚外情取证-青岛狄仁杰国际侦探公司 | 火锅底料批发-串串香技术培训[川禾川调官网] | 一体化污水处理设备,一体化污水设备厂家-宜兴市福源水处理设备有限公司 | 合肥仿石砖_合肥pc砖厂家_合肥PC仿石砖_安徽旭坤建材有限公司 | T恤衫定做,企业文化衫制作订做,广告T恤POLO衫定制厂家[源头工厂]-【汉诚T恤定制网】 | 【MBA备考网】-2024年工商管理硕士MBA院校/报考条件/培训/考试科目/提前面试/考试/学费-MBA备考网 | 扒渣机,铁水扒渣机,钢水扒渣机,铁水捞渣机,钢水捞渣机-烟台盛利达工程技术有限公司 | 混合气体腐蚀试验箱_盐雾/硫化氢/气体腐蚀试验箱厂家-北京中科博达 | 苏州工作服定做-工作服定制-工作服厂家网站-尺品服饰科技(苏州)有限公司 | 欧美日韩国产一区二区三区不_久久久久国产精品无码不卡_亚洲欧洲美洲无码精品AV_精品一区美女视频_日韩黄色性爱一级视频_日本五十路人妻斩_国产99视频免费精品是看4_亚洲中文字幕无码一二三四区_国产小萍萍挤奶喷奶水_亚洲另类精品无码在线一区 | 深圳VI设计-画册设计-LOGO设计-包装设计-品牌策划公司-[智睿画册设计公司] |