精准猎取科技资讯,天堂视频在线观看,高效阅读科技新闻_黄色av网站在线免费观看_科技猎

產(chǎn)品經(jīng)理如何入門自然語(yǔ)言處理(NLP)?

我是創(chuàng)始人李巖:很抱歉!給自己產(chǎn)品做個(gè)廣告,點(diǎn)擊進(jìn)來(lái)看看。  
自然語(yǔ)言處理,顧名思義即自然語(yǔ)言處理的技術(shù),通常用縮寫NLP指代。各類產(chǎn)品經(jīng)理日常的工作中,會(huì)遇到大量自然語(yǔ)言處理的應(yīng)用場(chǎng)景。以智能推薦為例,在待推薦物文本分類、主題分類等場(chǎng)景中都會(huì)用到。本篇以產(chǎn)品經(jīng)理的視角,談?wù)勅绾稳腴T自然語(yǔ)言處理。

統(tǒng)計(jì)模型

很多大牛對(duì)人工智能的抨擊在于,認(rèn)為人工智能只是統(tǒng)計(jì)學(xué),并不是真正的具有「智能」。在當(dāng)前「弱人工智能」的時(shí)代背景下,學(xué)習(xí)統(tǒng)計(jì)模型仍然有非常重要的價(jià)值。

拿經(jīng)常用于分類場(chǎng)景的貝葉斯模型為例,在已經(jīng)拿到用于訓(xùn)練集的語(yǔ)料中,可以通過(guò)統(tǒng)計(jì)得出A出現(xiàn)的概率、B出現(xiàn)的概率、在A出現(xiàn)的前提下B出現(xiàn)的概率,計(jì)算如果B出現(xiàn)同時(shí)A出現(xiàn)的概率(即給定B樣本計(jì)算出現(xiàn)A的概率),就可以直接從前面三個(gè)統(tǒng)計(jì)概率計(jì)算得出。
產(chǎn)品經(jīng)理如何入門自然語(yǔ)言處理(NLP)? 當(dāng)然以上貝葉斯模型成立并且表現(xiàn)良好的前提是數(shù)據(jù)量足夠大,滿足大數(shù)定律。不難發(fā)現(xiàn)統(tǒng)計(jì)模型的精髓在于,假設(shè)數(shù)據(jù)量足夠大后,可以用已有樣本的統(tǒng)計(jì)情況,來(lái)做判別或預(yù)測(cè)。

閉環(huán)流程

NLP技術(shù)應(yīng)用場(chǎng)景廣泛且松散,且在很多情況下,作為中間處理技術(shù)流程,不被最終用戶所感知。再加上近些年新的自然語(yǔ)言處理技術(shù)不斷出現(xiàn),給想入門自然語(yǔ)言處理的產(chǎn)品經(jīng)理眼花繚亂,不知如何入手的困惑。

入門自然語(yǔ)言處理也需要講究MVP,以最小可行性的閉環(huán),建立起初步認(rèn)知,再不斷擴(kuò)展和豐富NLP的知識(shí)體系,逐步建立大的框架和認(rèn)知。

通常的自然語(yǔ)言處理任務(wù)可從「分詞」—>「構(gòu)建特征」—>「訓(xùn)練模型」—>「分類或預(yù)測(cè)應(yīng)用」。

以上流程中,除了分詞外,與機(jī)器學(xué)習(xí)通常流程一樣。英文一個(gè)個(gè)單詞本身就是分開的,是不需要分詞的。但對(duì)于中文來(lái)講,詞與詞之間是連接在一起的,需要將文本內(nèi)容,切分成一個(gè)個(gè)詞再處理。

完成分詞后,計(jì)算機(jī)無(wú)法直接理解漢字,需要通過(guò)將一個(gè)個(gè)詞,編碼成計(jì)算機(jī)可以理解的數(shù)字再做處理,這個(gè)階段即構(gòu)建特征階段。

特征完成后,再根據(jù)自然語(yǔ)言處理任務(wù)類型,決定采用哪種算法訓(xùn)練模型,最后將訓(xùn)練好的模型應(yīng)用于特定的分類或預(yù)測(cè)任務(wù)上。一個(gè)自然語(yǔ)言處理任務(wù)就完成了。

標(biāo)注與預(yù)處理

前幾年從事的智能推薦產(chǎn)品中,推薦系統(tǒng)本身以CTR作為優(yōu)化目標(biāo),實(shí)際是將點(diǎn)擊與否作為label,相當(dāng)于用戶幫著做了分布式的標(biāo)注工作。

傳統(tǒng)基于統(tǒng)計(jì)的自然語(yǔ)言處理任務(wù)中,大部分任務(wù)類型是有監(jiān)督學(xué)習(xí),需要人在已有語(yǔ)料上做大量的標(biāo)注工作,才能保證任務(wù)的正常進(jìn)行。

例如情感識(shí)別是否為正向情感,就需要人在語(yǔ)料上,將一條條信息標(biāo)出是否為正向情感。再將此語(yǔ)料作為訓(xùn)練集訓(xùn)練模型,生成情感識(shí)別的分類模型用于情感識(shí)別。

文檔的預(yù)處理通常是將拿到的語(yǔ)料做去除標(biāo)點(diǎn)符號(hào)、停用詞、數(shù)字等處理,去除自然語(yǔ)言無(wú)關(guān)內(nèi)容,加快計(jì)算機(jī)計(jì)算和模型生成速度。

在完成以上處理后,可將文檔做分詞處理,再將詞作編碼處理即可。

常見(jiàn)任務(wù)及算法原理

自然語(yǔ)言處理通常有以下應(yīng)用場(chǎng)景:分詞、詞性標(biāo)注、主題識(shí)別、情感識(shí)別、文本分類、機(jī)器翻譯等。下面將主要應(yīng)用及背后算法原理作簡(jiǎn)要介紹。

有監(jiān)督的分類問(wèn)題。無(wú)論情感識(shí)別還是垃圾郵件分類,本質(zhì)上都可以轉(zhuǎn)化為幾個(gè)目標(biāo)類型的分類問(wèn)題。按照貝葉斯公式的邏輯,將已有語(yǔ)料數(shù)據(jù)進(jìn)行類型標(biāo)注,基于統(tǒng)計(jì)模型的邏輯,訓(xùn)練得到分類模型,將待識(shí)別內(nèi)容通過(guò)模型計(jì)算打分,根據(jù)閾值即可完成識(shí)別。例如二分類的情感識(shí)別,可以將0-0.5區(qū)間歸為消極情感,0.5-1區(qū)間歸為積極情感。多分類則是計(jì)算待分類樣本離哪個(gè)區(qū)間更近,即識(shí)別為哪種類型。

無(wú)監(jiān)督的分類問(wèn)題。自然語(yǔ)言處理中,經(jīng)常會(huì)有主題識(shí)別任務(wù),這類任務(wù)通常是采用LDA主題模型,核心邏輯是將文章劃分為「文檔」—「主題」—「詞」的三層邏輯,以無(wú)監(jiān)督學(xué)習(xí)自動(dòng)完成按照主題的詞聚類。由于是無(wú)監(jiān)督學(xué)習(xí),需要根據(jù)實(shí)際情況指定學(xué)習(xí)出的主題個(gè)數(shù),最終選擇主題個(gè)數(shù)最合理的結(jié)果。依賴人的主觀判斷和理解一系列詞背后組成的主題。

生成問(wèn)題。生成問(wèn)題常見(jiàn)的有文本糾錯(cuò)、詞生成、句子生成、機(jī)器翻譯等。生成問(wèn)題從統(tǒng)計(jì)學(xué)邏輯上講,是基于已有語(yǔ)料的統(tǒng)計(jì),計(jì)算出接下來(lái)要生成內(nèi)容的概率。拿機(jī)器翻譯舉例,需要事先準(zhǔn)備好中英文對(duì)照的大量語(yǔ)料,基于語(yǔ)料,機(jī)器學(xué)習(xí)到中英文詞對(duì)照、短語(yǔ)對(duì)照的知識(shí),最終在翻譯場(chǎng)景下,輸出中文或英文相應(yīng)的翻譯內(nèi)容。

再拿隱馬爾可夫模型做詞性標(biāo)注舉例,基于已經(jīng)標(biāo)注的語(yǔ)料,隱馬爾可夫模型可以學(xué)習(xí)到詞與詞之間詞性的狀態(tài)轉(zhuǎn)移概率,基于這個(gè)概率可以計(jì)算出一個(gè)詞屬于哪種詞性。

深度學(xué)習(xí)的應(yīng)用。CNN構(gòu)建的神經(jīng)網(wǎng)絡(luò),比較適合解決NLP分類問(wèn)題,但由于沒(méi)有記憶,無(wú)法解決生成問(wèn)題。RNN相較于CNN可以解決一定長(zhǎng)度記憶問(wèn)題,適合解決NLP領(lǐng)域一定長(zhǎng)度的生成問(wèn)題,例如詞生成,但無(wú)法保留長(zhǎng)期記憶。LSTM具有長(zhǎng)期記憶的手段,可以做生成句子的任務(wù)。

NLP應(yīng)用價(jià)值

文本是最常見(jiàn)的生產(chǎn)資料,產(chǎn)品經(jīng)理學(xué)習(xí)NLP的原理及應(yīng)用,可以開闊解決問(wèn)題的視野。

拿在線教育行業(yè)舉例,利用自然語(yǔ)言處理能力,可以自動(dòng)識(shí)別出學(xué)生評(píng)論的情感傾向,可以輔助老師進(jìn)行作文批改、自動(dòng)出題、自動(dòng)解題。

不難看出,自然語(yǔ)言處理的應(yīng)用場(chǎng)景,并非人做不了,而是可以替代人類的手工勞動(dòng),大大提升任務(wù)的效率,將人解放出來(lái),做更有價(jià)值的工作。

以上就是“產(chǎn)品經(jīng)理如何入門自然語(yǔ)言處理(NLP)?”的內(nèi)容了,如果你還想了解其他相關(guān)內(nèi)容,可以來(lái) 產(chǎn)品壹佰 官方網(wǎng)站。

隨意打賞

提交建議
微信掃一掃,分享給好友吧。
主站蜘蛛池模板: 耐高温硅酸铝板-硅酸铝棉保温施工|亿欧建设工程 | 深圳3D打印服务-3D打印加工-手板模型加工厂-悟空打印坊 | 浙江宝泉阀门有限公司 | 洗瓶机厂家-酒瓶玻璃瓶冲瓶机-瓶子烘干机-封口旋盖压盖打塞机_青州惠联灌装机械 | MOOG伺服阀维修,ATOS比例流量阀维修,伺服阀维修-上海纽顿液压设备有限公司 | 四探针电阻率测试仪-振实密度仪-粉末流动性测定仪-宁波瑞柯微智能 | 代理记账_免费注册公司_营业执照代办_资质代办-【乐财汇】 | 汽车整车综合环境舱_军标砂尘_盐雾试验室试验箱-无锡苏南试验设备有限公司 | 奥运星-汽车性能网评-提供个性化汽车资讯 | 上海防爆真空干燥箱-上海防爆冷库-上海防爆冷柜?-上海浦下防爆设备厂家? | 首页|光催化反应器_平行反应仪_光化学反应仪-北京普林塞斯科技有限公司 | 首页-瓜尔胶系列-化工单体系列-油田压裂助剂-瓜尔胶厂家-山东广浦生物科技有限公司 | 石家庄小程序开发_小程序开发公司_APP开发_网站制作-石家庄乘航网络科技有限公司 | 不锈钢搅拌罐_高速搅拌罐厂家-无锡市凡格德化工装备科技有限公司 | 北京网站建设|北京网站开发|北京网站设计|高端做网站公司 | 标准光源箱|对色灯箱|色差仪|光泽度仪|涂层测厚仪_HRC大品牌生产厂家 | 生鲜配送系统-蔬菜食材配送管理系统-连锁餐饮订货配送软件-挪挪生鲜供应链管理软件 | 橡胶电子拉力机-塑料-微电脑电子拉力试验机厂家-江苏天源 | 直读光谱仪,光谱分析仪,手持式光谱仪,碳硫分析仪,创想仪器官网 | 品牌策划-品牌设计-济南之式传媒广告有限公司官网-提供品牌整合丨影视创意丨公关活动丨数字营销丨自媒体运营丨数字营销 | 滚珠丝杆升降机_螺旋升降机_丝杠升降机-德迈传动 | 礼仪庆典公司,礼仪策划公司,庆典公司,演出公司,演艺公司,年会酒会,生日寿宴,动工仪式,开工仪式,奠基典礼,商务会议,竣工落成,乔迁揭牌,签约启动-东莞市开门红文化传媒有限公司 | 蔬菜清洗机_环速洗菜机_异物去除清洗机_蔬菜清洗机_商用洗菜机 - 环速科技有限公司 | 天津市能谱科技有限公司-专业的红外光谱仪_红外测油仪_紫外测油仪_红外制样附件_傅里叶红外光谱技术生产服务厂商 | 许昌奥仕达自动化设备有限公司 | 室内室外厚型|超薄型|非膨胀型钢结构防火涂料_隧道专用防火涂料厂家|电话|价格|批发|施工 | 袋式过滤器,自清洗过滤器,保安过滤器,篮式过滤器,气体过滤器,全自动过滤器,反冲洗过滤器,管道过滤器,无锡驰业环保科技有限公司 | 成都离婚律师|成都结婚律师|成都离婚财产分割律师|成都律师-成都离婚律师网 | 智能垃圾箱|垃圾房|垃圾分类亭|垃圾分类箱专业生产厂家定做-宿迁市传宇环保设备有限公司 | 无压烧结银_有压烧结银_导电银胶_导电油墨_导电胶-善仁(浙江)新材料 | 油缸定制-液压油缸厂家-无锡大鸿液压气动成套有限公司 | 杭州门窗厂家_阳光房_包阳台安装电话-杭州窗猫铝合金门窗 | 碳纤维布-植筋胶-灌缝胶-固特嘉加固材料公司 | 3d可视化建模_三维展示_产品3d互动数字营销_三维动画制作_3D虚拟商城 【商迪3D】三维展示服务商 广东健伦体育发展有限公司-体育工程配套及销售运动器材的体育用品服务商 | 圣才学习网-考研考证学习平台,提供万种考研考证电子书、题库、视频课程等考试资料 | 无锡网站建设_企业网站定制-网站制作公司-阿凡达网络 | 户外健身路径_小区健身器材_室外健身器材厂家_价格-浩然体育 | 超声骨密度仪,双能X射线骨密度仪【起草单位】,骨密度检测仪厂家 - 品源医疗(江苏)有限公司 | pbootcms网站模板|织梦模板|网站源码|jquery建站特效-html5模板网 | 全自动实验室洗瓶机,移液管|培养皿|进样瓶清洗机,清洗剂-广州摩特伟希尔机械设备有限责任公司 | 华中线缆有限公司-电缆厂|电缆厂家|电线电缆厂家 |