精准猎取科技资讯,天堂视频在线观看,高效阅读科技新闻_黄色av网站在线免费观看_科技猎

告別1人年,教你21天搭建推薦系統(tǒng)

我是創(chuàng)始人李巖:很抱歉!給自己產(chǎn)品做個廣告,點擊進來看看。  

系統(tǒng) 作者: 盧梭

摘要: 本文作者為阿里云技術(shù)專家鄭重(盧梭),主要分享內(nèi)容是如何在21天內(nèi)快速搭建推薦系統(tǒng)。推薦系統(tǒng)的搭建是個復雜工程,涉及到實時計算、離線計算,以及各種數(shù)據(jù)采集、流轉(zhuǎn)等,對自建推薦系統(tǒng)來說,1人年是跑不掉的。 本文介紹的內(nèi)容還包括如何搭建一個個性化推薦系統(tǒng)所需的環(huán)境準備、基本配置和離線技術(shù)等基本功能的搭建。

本文介紹的內(nèi)容還包括如何搭建一個個性化推薦系統(tǒng)所需的環(huán)境準備、基本配置和離線技術(shù)等基本功能的搭建,也有效果報表、算法優(yōu)化和實時修正等高級功能的剖析。

大數(shù)據(jù)有三個非常經(jīng)典的應用:計算廣告、搜索、推薦。每一種應用最核心的地方都離不開三個字——個性化。廣告不用說了,計算廣告的基本要求就是要精準,為廣告選擇對其感興趣的目標受眾;搜索可以理解為對搜索關(guān)鍵詞的個性化;而推薦,則需要在用戶和物品之間建立興趣關(guān)系。推薦的業(yè)態(tài)比較復雜,有類似淘寶天貓這樣的真正意義上大數(shù)據(jù)場景,也有很多中小網(wǎng)站、應用,數(shù)據(jù)量其實并不是很大。阿里云推薦引擎(https://data.aliyun.com/product/re)的初衷,是為了幫助阿里云的客戶、創(chuàng)業(yè)者、中小網(wǎng)站,讓他們能夠更好的運營自己的產(chǎn)品或網(wǎng)站。

推薦系統(tǒng)一般包括展現(xiàn)子系統(tǒng)、日志子系統(tǒng)和算法子系統(tǒng)三個部分,三者互為一體。

系統(tǒng)架構(gòu)
“展現(xiàn)”部分不僅要負擔展現(xiàn),還是數(shù)據(jù)采集的窗口,用戶在展現(xiàn)系統(tǒng)的所有行為通過日志錄入,采集到的數(shù)據(jù)經(jīng)過算法子系統(tǒng)的計算,可以得到用戶的偏好或者個性化興趣,然后回過頭來指導“展現(xiàn)”部分怎樣做的更聚焦。

阿里云推薦引擎(RecEng)是推薦系統(tǒng)的一部分,主要實現(xiàn)的是算法子系統(tǒng),需要和其他子系統(tǒng)配合工作。使用阿里云推薦引擎分為兩大階段

第一階段:基本功能的搭建

Day1. 環(huán)境準備

環(huán)境準備
環(huán)境準備分為兩部分。圖中左側(cè)為云上資源的準備,我們需要擁有阿里公有云賬號,然后開通云監(jiān)控服務(可選)和阿里云數(shù)加服務(必選);開通數(shù)加賬號后,大數(shù)據(jù)計算服務(MaxCompute,原名ODPS)和大數(shù)據(jù)開發(fā)DataIDE就默認開通了(DataIDE相當于MaxCompute的可視化包裝),最后開通推薦引擎。未來客戶在推薦引擎中用到的數(shù)據(jù),以及相關(guān)離線計算,都在客戶自己的MaxCompute項目中完成。右側(cè)為客戶側(cè)的準備,前端的展現(xiàn),以及日志的采集和管理都需要客戶自己完成,通過推薦引擎提供的API與推薦引擎進行交互。通常情況下,客戶側(cè)的后臺相關(guān)功能會集中在推薦服務器中實現(xiàn),這也是阿里云推薦引擎墻裂建議的方案。推薦服務器可以是客戶自己的物理機,也可以是阿里云的虛擬機ECS,都是可以的。

Day2-3. 數(shù)據(jù)準備

DT時代的基本要求是數(shù)據(jù)要能夠“存、通、用”。采集日志,并將其上傳到公共云實現(xiàn)了數(shù)據(jù)“存”的過程;推薦引擎負責解決數(shù)據(jù)的“通”和“用”。“用”比較好理解,“通”則指的是所有進入推薦引擎的數(shù)據(jù)必須滿足推薦引擎所定義的格式規(guī)范。推薦有三類數(shù)據(jù):用戶數(shù)據(jù)、物品數(shù)據(jù)和行為數(shù)據(jù),我們定義了這三種表的格式規(guī)范,比較簡單,具體細節(jié)可以參考:鏈接

那么,如何把數(shù)據(jù)傳到公共云上來呢?目前主要有兩種方法,一是利用集成在MaxComputeconsole中的Tunnel命令,該命令的缺點只能上傳文本格式數(shù)據(jù);另一種方法是定制DataX上傳,DataX作為連接各種數(shù)據(jù)庫中間的節(jié)點,它除了可以作為文本上傳,還可以把各種數(shù)據(jù)庫打通。DataX的缺點是目前只能在Linux環(huán)境下運行。

當然,未必每一個業(yè)務的數(shù)據(jù)都滿足規(guī)范的要求,所以還需要做一些格式轉(zhuǎn)換。DataIDE提供了比較友好的格式轉(zhuǎn)換界面,還可以把配置好的任務設(shè)置為定時任務,每天定時調(diào)度;也可以在MaxComputeconsole下直接執(zhí)行格式轉(zhuǎn)換的SQL腳本,再利用系統(tǒng)的crontab命令實現(xiàn)定時任務。

Day4-5. 基本配置和離線計算

離線計算
環(huán)境和數(shù)據(jù)都準備好了之后,接下來需要進入阿里云推薦引擎產(chǎn)品,真正開始使用推薦引擎了。不過在此之前,還需要對產(chǎn)品中的一些關(guān)鍵概念進行必要的說明。

第一個概念是業(yè)務。 在阿里云推薦引擎中,業(yè)務指的是一組可被用來進行推薦算法計算的完備數(shù)據(jù)集,包括物品表、行為表、用戶表這三張表。也可以簡單的認為這三張表就構(gòu)成了一個業(yè)務。

第二個概念是場景, 所謂場景就是推薦的上下文。換句話說,就是在進行推薦時有哪些可用的參數(shù)。比如在進行首頁推薦的時候,可用的參數(shù)只有用戶的ID;在進行詳情頁推薦的時候,可用的參數(shù)除了用戶ID,還可以由詳情頁上展示的物品ID,這樣首頁推薦和詳情頁推薦就是兩個推薦的場景。一個業(yè)務可以包括多個場景。

第三個概念是算法流程, 算法流程指的是數(shù)據(jù)端到端的處理流程,從客戶的輸入數(shù)據(jù)開始,到產(chǎn)出最終結(jié)果為止。推薦算法流程從屬于場景,一個場景可以包含多個算法流程。每個推薦算法流程都包括兩部分,離線計算流程和在線計算流程。離線計算流程負責從原始的業(yè)務數(shù)據(jù)(用戶、物品、行為)開始,計算用戶對物品的興趣,輸出本場景下用戶可能會感興趣的物品集合;在線計算流程實時接受推薦請求,從離線計算流程得到的物品集合中根據(jù)業(yè)務規(guī)則挑選出最合適的若干個物品返回給請求方。一個場景包含多個推薦算法流程這種設(shè)定使得我們在做效果對比變的比較容易,后面會介紹A/BTesting,在A/BTesting中,每個推薦算法流程都是一個可被效果指標度量的最小單元。在做完A/BTesting之后,通常只會在一個場景下保留一個效果最好的推薦算法流程。

流程
產(chǎn)品里的配置都比較簡單,配置業(yè)務基本信息、配置業(yè)務依賴的云資源、配置業(yè)務數(shù)據(jù)表,接著配置場景、配置API參數(shù),最后配置算法流程,阿里云推薦引擎提供了兩個默認的推薦算法流程模板,分別針對首頁場景和詳細頁場景,圖為首頁場景的離線計算流程模板,圖中每一個節(jié)點就是一個算法,最終產(chǎn)出離線計算結(jié)果。

Day6-8. 推薦API集成

集成
到了這一步,云端推薦引擎里的推薦算法邏輯已經(jīng)配置完成,剩下的事情就是把系統(tǒng)串起來,讓推薦引擎和日志、展示兩個子系統(tǒng)結(jié)合起來,成為推薦系統(tǒng)。阿里云推薦引擎提供了一組API,這里要做的就是把這些API集成到推薦服務器中。

首先需要把離線數(shù)據(jù)傳上來,可以用前面提到的方法,Tunnel啊,DataX啊,都可以,但是一定要是定時任務,我們總不能每天都去手工執(zhí)行數(shù)據(jù)上傳。上傳完成之后首先調(diào)用數(shù)據(jù)預處理API,對數(shù)據(jù)做一些預處理;然后調(diào)用離線計算API,啟動離線計算。待離線計算完成后,通過推薦API就可以實時獲取用戶的推薦結(jié)果了。在離線計算的過程中,還可以通過查看計算任務狀態(tài)API實時獲取計算任務的狀態(tài),便于及時發(fā)現(xiàn)異常。

上圖也展示了我們對推薦服務器的一些基本建議。諸如數(shù)據(jù)上傳、啟動離線計算這些功能建議由一個相對獨立的數(shù)據(jù)管理組件來負責;而實時性要求比較高的推薦結(jié)果獲取建議由專門的推薦管理組件來負責。推薦管理組件和數(shù)據(jù)管理組件為什么要有一個交互呢?這是因為從推薦引擎返回的結(jié)果中可能只包括了物品的ID,展示時不能只展示一個ID,還有很多材料,這些東西可以放在推薦服務器中,由數(shù)據(jù)管理模塊負責管理。UI可以提供人工管理數(shù)據(jù)的界面,比如新錄入了一個物品,或者某個物品賣完了要下線,需要做實時修正時就可以用到了。

這些工作都完成之后,一個具備最基本功能的推薦系統(tǒng)就可以運行起來了。

via:博客園

End.

本文被轉(zhuǎn)載1次

首發(fā)媒體 36大數(shù)據(jù) | 轉(zhuǎn)發(fā)媒體

隨意打賞

告別2015年
提交建議
微信掃一掃,分享給好友吧。
主站蜘蛛池模板: 书法培训-高考书法艺考培训班-山东艺霖书法培训凭实力挺进央美 | 北京宣传片拍摄_产品宣传片拍摄_宣传片制作公司-现像传媒 | 冷藏车厂家|冷藏车价格|小型冷藏车|散装饲料车厂家|程力专用汽车股份有限公司销售十二分公司 | 标策网-专注公司商业知识服务、助力企业发展 | 连续密炼机_双转子连续密炼机_连续式密炼机-南京永睿机械制造有限公司 | 高低温老化试验机-步入式/低温恒温恒湿试验机-百科 | 楼承板-钢筋楼承板-闭口楼承板-无锡优贝斯楼承板厂 | 金库门,金库房,金库门厂家,金库门价格-河北特旺柜业有限公司 | 南京雕塑制作厂家-不锈钢雕塑制作-玻璃钢雕塑制作-先登雕塑厂 | 无线联网门锁|校园联网门锁|学校智能门锁|公租房智能门锁|保障房管理系统-KEENZY中科易安 | 旋振筛_不锈钢旋振筛_气旋筛_旋振筛厂家—新乡市大汉振动机械有限公司 | 硬齿面减速机[型号全],ZQ减速机-淄博久增机械| 土壤肥料养分速测仪_测土配方施肥仪_土壤养分检测仪-杭州鸣辉科技有限公司 | 电动手术床,医用护理床,led手术无影灯-曲阜明辉医疗设备有限公司 | 杜康白酒加盟_杜康酒代理_杜康酒招商加盟官网_杜康酒厂加盟总代理—杜康酒神全国运营中心 | BESWICK球阀,BESWICK接头,BURKERT膜片阀,美国SEL继电器-东莞市广联自动化科技有限公司 | 无菌水质袋-NASCO食品无菌袋-Whirl-Pak无菌采样袋-深圳市慧普德贸易有限公司 | 低粘度纤维素|混凝土灌浆料|有机硅憎水粉|聚羧酸减水剂-南京斯泰宝 | 智能电表|预付费ic卡水电表|nb智能无线远传载波电表-福建百悦信息科技有限公司 | 二手光谱仪维修-德国OBLF光谱仪|进口斯派克光谱仪-热电ARL光谱仪-意大利GNR光谱仪-永晖检测 | 蓄电池回收,ups电池后备电源回收,铅酸蓄电池回收,机房电源回收-广州益夫铅酸电池回收公司 | 岸电电源-60HZ变频电源-大功率变频电源-济南诚雅电子科技有限公司 | 美缝剂_美缝剂厂家_美缝剂加盟-地老板高端瓷砖美缝剂 | 净化工程_无尘车间_无尘车间装修-广州科凌净化工程有限公司 | 带式压滤机_污泥压滤机_污泥脱水机_带式过滤机_带式压滤机厂家-河南恒磊环保设备有限公司 | 紧急泄压人孔_防爆阻火器_阻火呼吸阀[河北宏泽石化] | 德国EA可编程直流电源_电子负载,中国台湾固纬直流电源_交流电源-苏州展文电子科技有限公司 | 乐之康护 - 专业护工服务平台,提供医院陪护-居家照护-居家康复 | 探鸣起名网-品牌起名-英文商标起名-公司命名-企业取名包满意 | 意大利Frascold/富士豪压缩机_富士豪半封闭压缩机_富士豪活塞压缩机_富士豪螺杆压缩机 | 长城人品牌官网 | 乳化沥青设备_改性沥青设备_沥青加温罐_德州市昊通路桥工程有限公司 | 杭州营业执照代办-公司变更价格-许可证办理流程_杭州福道财务管理咨询有限公司 | 新疆散热器,新疆暖气片,新疆电锅炉,光耀暖通公司 | 找培训机构_找学习课程_励普教育 | 对夹式止回阀_对夹式蝶形止回阀_对夹式软密封止回阀_超薄型止回阀_不锈钢底阀-温州上炬阀门科技有限公司 | 北京易通慧公司从事北京网站优化,北京网络推广、网站建设一站式服务商-北京网站优化公司 | 电动葫芦|环链电动葫芦-北京凌鹰名优起重葫芦 | 国际线缆连接网 - 连接器_线缆线束加工行业门户网站 | 全自动包装秤_全自动上袋机_全自动套袋机_高位码垛机_全自动包装码垛系统生产线-三维汉界机器(山东)股份有限公司 | 高压油管,液压接头,液压附件-烟台市正诚液压附件 |