精准猎取科技资讯,天堂视频在线观看,高效阅读科技新闻_黄色av网站在线免费观看_科技猎

計算蛋白質(zhì)工程最新SOTA方法,牛津團(tuán)隊用密碼子訓(xùn)練大語言模型 - IT思維

我是創(chuàng)始人李巖:很抱歉!給自己產(chǎn)品做個廣告,點(diǎn)擊進(jìn)來看看。  

公眾號/? ScienceAI(ID:Philosophyai)

編輯 | 蘿卜皮

計算蛋白質(zhì)工程最新SOTA方法,牛津團(tuán)隊用密碼子訓(xùn)練大語言模型 - IT思維

來自深度語言模型的蛋白質(zhì)表征,已經(jīng)在計算蛋白質(zhì)工程的許多任務(wù)中表現(xiàn)出最先進(jìn)的性能。近年來,進(jìn)展主要集中在參數(shù)計數(shù)上,最近模型的容量超過了它們所訓(xùn)練的數(shù)據(jù)集的大小。

牛津大學(xué)(University of Oxford)的研究人員提出一個替代方向。他們證明,在密碼子而不是氨基酸序列上訓(xùn)練的大型語言模型可以提供高質(zhì)量的表征,并且在各種任務(wù)中都優(yōu)于同類最先進(jìn)的模型。

在某些任務(wù)中,例如物種識別、蛋白質(zhì)和轉(zhuǎn)錄本豐度預(yù)測等,該團(tuán)隊發(fā)現(xiàn),基于密碼子訓(xùn)練的語言模型優(yōu)于所有其他已發(fā)布的蛋白質(zhì)語言模型,包括一些包含超過 50 倍訓(xùn)練參數(shù)的 模型 。

該研究以「Codon language embeddings provide strong signals for use in protein engineering」為題于 2024 年 2 月 23 日發(fā)布在《Nature Machine Intelligence》。

計算蛋白質(zhì)工程最新SOTA方法,牛津團(tuán)隊用密碼子訓(xùn)練大語言模型 - IT思維

蛋白質(zhì)表征學(xué)習(xí)仍存在不少挑戰(zhàn)

預(yù)訓(xùn)練語言模型已成為計算蛋白質(zhì)工程許多領(lǐng)域不可或缺的工具。大多數(shù)標(biāo)記蛋白質(zhì)數(shù)據(jù)集的大小有限,因此首先在大型、未標(biāo)記的序列信息語料庫(例如 UniRef)上對龐大的深度神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練,并具有自監(jiān)督的重建目標(biāo)。自監(jiān)督訓(xùn)練賦予模型的潛在變量具有高度信息性的特征,稱為表征學(xué)習(xí),然后可以在可用訓(xùn)練數(shù)據(jù)有限的下游任務(wù)中利用這些特征。

蛋白質(zhì)表征學(xué)習(xí)目前是用于預(yù)測變異適應(yīng)性、蛋白質(zhì)功能、亞細(xì)胞定位、溶解度、結(jié)合位點(diǎn)、信號肽、翻譯后修飾、內(nèi)在紊亂等的最先進(jìn)工具的核心,它們在實(shí)現(xiàn)準(zhǔn)確的免比對蛋白質(zhì)結(jié)構(gòu)預(yù)測的道路上顯示出了巨大潛力。因此,改進(jìn)學(xué)習(xí)表征是在計算蛋白質(zhì)工程中實(shí)現(xiàn)一致、實(shí)質(zhì)性改進(jìn)的潛在途徑。

迄今為止,實(shí)現(xiàn)更多信息表征的途徑遵循兩個主要方向:追求增強(qiáng)規(guī)模的模型,其中增加模型容量單調(diào)地提高性能;模型架構(gòu)的改進(jìn)也持續(xù)帶來了性能提升。但是,這兩個方向都耗費(fèi)人力和計算機(jī)時間,需要顯著優(yōu)化,并且似乎提供遞減(對數(shù))回報。

更豐富的數(shù)據(jù)是另一條途徑

改進(jìn)學(xué)習(xí)表征的另一種途徑可能是使用包含更豐富信號的生物數(shù)據(jù)。雖然蛋白質(zhì)語言模型迄今為止主要關(guān)注氨基酸序列,但編碼蛋白質(zhì)的 DNA 序列中還包含其他信息。

蛋白質(zhì)編碼 DNA (cDNA) 的語言依賴于 64 個核苷酸三聯(lián)體,稱為密碼子,每個密碼子編碼一個特定的氨基酸或序列的末端。

雖然這種 64 密碼子字母表是高度簡并的,大多數(shù)氨基酸由多達(dá) 6 個不同的密碼子編碼,但目前的研究表明,編碼相同氨基酸(同義)的密碼子不能互換使用。同義密碼子的使用與蛋白質(zhì)結(jié)構(gòu)特征相關(guān),近 60 個同義突變與人類疾病有關(guān)。

計算蛋白質(zhì)工程最新SOTA方法,牛津團(tuán)隊用密碼子訓(xùn)練大語言模型 - IT思維

圖示:將蛋白質(zhì)語言模型擴(kuò)展到密碼子語言。(來源:論文)

密碼子的使用也與蛋白質(zhì)折疊有關(guān),有充分的證據(jù)表明密碼子序列的變化會影響折疊動力學(xué)、折疊途徑,甚至正確折疊的蛋白質(zhì)的量。這一證據(jù)表明,同義密碼子的使用包含有價值的生物信息,機(jī)器學(xué)習(xí)模型可以利用這些信息來提高預(yù)測任務(wù)中的信噪比。

用密碼子序列,而不是氨基酸序列

在最新的研究中,牛津大學(xué)的研究團(tuán)隊證明在密碼子序列上預(yù)訓(xùn)練蛋白質(zhì)語言模型 CaLM(codon adaptation language model,由 8600 萬參數(shù)進(jìn)行訓(xùn)練),可以產(chǎn)生能夠捕獲關(guān)鍵生化特征的信息豐富的蛋白質(zhì)表征。測試表明,根據(jù)密碼子而不是氨基酸序列訓(xùn)練的蛋白質(zhì)表征,在各種下游任務(wù)中表現(xiàn)出顯著的優(yōu)勢。

圖示:CaLM 概述。(來源:論文)

該團(tuán)隊的 8600 萬參數(shù)語言模型的性能,優(yōu)于其他具有類似容量的模型,在許多情況下,甚至優(yōu)于參數(shù)超過 50 倍的模型。這種性能是由于密碼子語言模型能夠捕獲跨 DNA 序列的密碼子使用模式的能力,并且當(dāng)密碼子使用信息被損壞時,這種優(yōu)勢就會消失。

cDNA 訓(xùn)練模型的額外訓(xùn)練成本可以忽略不計,并且似乎可以提高所考慮的所有序列級任務(wù)的性能。由于高通量蛋白質(zhì)測序幾乎完全是通過 DNA 序列的翻譯來完成的,因此原始編碼序列是公開可用的并且可以用于訓(xùn)練。研究人員建議使用 cDNA 而不是簡單的氨基酸序列來訓(xùn)練蛋白質(zhì)語言模型,這為改進(jìn)計算蛋白質(zhì)工程提供了一條明確的途徑。

密碼子語言模型還可以為無需比對的蛋白質(zhì)結(jié)構(gòu)預(yù)測,提供有價值的進(jìn)化信號,特別是在依賴語言模型來預(yù)測蛋白質(zhì)各部分之間關(guān)系的 ESMfold 和 OmegaFold 等方法中。

基于 cDNA 的模型可以恢復(fù)更廣泛的進(jìn)化關(guān)系,例如同義突變,這在核苷酸水平上很明顯,但在氨基酸水平上并不明顯。已知同義密碼子的使用與結(jié)構(gòu)特征相關(guān),并且密碼子使用和蛋白質(zhì)折疊之間的聯(lián)系可能為已知無法捕獲折疊物理原理的方法提供有價值的信號。

研究人員建議,將密碼子語言模型納入免比對蛋白質(zhì)結(jié)構(gòu)預(yù)測的流程中,很可能為加速高精度蛋白質(zhì)結(jié)構(gòu)預(yù)測提供一條成本可以忽略不計的途徑。

提高蛋白質(zhì)表達(dá)質(zhì)量的兩個方向

該團(tuán)隊還提出了進(jìn)一步提高蛋白質(zhì)表達(dá)質(zhì)量的兩個主要方向。

一是規(guī)模擴(kuò)大。當(dāng)前的研究使用了一個只有 8600 萬個參數(shù)的簡單模型,這個大小與最新出版物中的標(biāo)準(zhǔn)模型大小相比顯得相形見絀。

使用的數(shù)據(jù)集也相對較小:與 ESM 系列模型中使用的 1.25 億個序列或某些 ProtTrans 模型中使用的近 5 億個序列相比,僅 900 萬個序列。通過在包含數(shù)億 DNA 序列的數(shù)據(jù)集上訓(xùn)練數(shù)十億參數(shù)模型,存在一條明確的途徑來提高表征質(zhì)量。

另一個潛在的改進(jìn)方向是開發(fā)結(jié)合氨基酸和編碼序列的多模式模型。該研究的消融實(shí)驗(yàn)表明,在缺乏密碼子使用信息的情況下,模型性能大幅下降,以至于低于數(shù)據(jù)集中的每個氨基酸模型。然而,由于模型間接訪問氨基酸序列,因此原則上它應(yīng)該能夠訪問與僅氨基酸模型相同的信息。

這種差異可能是由于訓(xùn)練期間缺乏氨基酸水平信號造成的,因此結(jié)合氨基酸和密碼子序列的訓(xùn)練模型可以提高整體模型性能。

更豐富的輸入帶來新視角

在生物學(xué)中,人們非常關(guān)注數(shù)據(jù)集偏差的影響,但相比之下,人們很少甚至沒有關(guān)注蛋白質(zhì)工程中更豐富的輸入的重要性。隨著計算能力和模型架構(gòu)的進(jìn)步,利用更豐富的生物數(shù)據(jù)為提高生物學(xué)中機(jī)器學(xué)習(xí)的能力提供了明確的方向。

基于 cDNA 訓(xùn)練的大型語言模型的開發(fā),將使研究「不直接由氨基酸序列確定的蛋白質(zhì)特性」成為可能。例如,密碼子的使用與蛋白質(zhì)折疊的相關(guān)性,實(shí)驗(yàn)證據(jù)表明密碼子序列的變化確實(shí)會影響折疊動力學(xué)、折疊途徑,甚至正確折疊蛋白質(zhì)的數(shù)量。

仔細(xì)選擇密碼子序列是蛋白質(zhì)科學(xué)的一個關(guān)鍵目標(biāo),其中表達(dá)的 cDNA 的特定序列會對產(chǎn)量產(chǎn)生巨大影響。該團(tuán)隊提出的基于密碼子的語言模型,代表了使用機(jī)器學(xué)習(xí)方法來研究蛋白質(zhì)的這些特性和其他特性的第一步,而這些特性迄今為止還沒有被氨基酸語言模型解決。

相關(guān)報道:https://www.nature.com/articles/s42256-024-00791-0

隨意打賞

提交建議
微信掃一掃,分享給好友吧。
主站蜘蛛池模板: 礼仪庆典公司,礼仪策划公司,庆典公司,演出公司,演艺公司,年会酒会,生日寿宴,动工仪式,开工仪式,奠基典礼,商务会议,竣工落成,乔迁揭牌,签约启动-东莞市开门红文化传媒有限公司 | 多物理场仿真软件_电磁仿真软件_EDA多物理场仿真软件 - 裕兴木兰 | 山东齐鲁漆业有限公司【官网】-工业漆专业生产厂家 | 磨煤机配件-高铬辊套-高铬衬板-立磨辊套-盐山县宏润电力设备有限公司 | 小型高低温循环试验箱-可程式高低温湿热交变试验箱-东莞市拓德环境测试设备有限公司 | 袋式过滤器,自清洗过滤器,保安过滤器,篮式过滤器,气体过滤器,全自动过滤器,反冲洗过滤器,管道过滤器,无锡驰业环保科技有限公司 | 卫生人才网-中国专业的医疗卫生医学人才网招聘网站! | 杭州双螺杆挤出机-百科| 手持气象站_便携式气象站_农业气象站_负氧离子监测站-山东万象环境 | 武汉创亿电气设备有限公司_电力检测设备生产厂家 | 座椅式升降机_无障碍升降平台_残疾人升降平台-南京明顺机械设备有限公司 | 专业甜品培训学校_广东糖水培训_奶茶培训_特色小吃培训_广州烘趣甜品培训机构 | 滚珠丝杆升降机_螺旋升降机_丝杠升降机-德迈传动 | 郑州电线电缆厂家-防火|低压|低烟无卤电缆-河南明星电缆 | 设定时间记录电子秤-自动累计储存电子秤-昆山巨天仪器设备有限公司 | 电气控制系统集成商-PLC控制柜变频控制柜-非标自动化定制-电气控制柜成套-NIDEC CT变频器-威肯自动化控制 | 工业设计,人工智能,体验式3D展示的智能技术交流服务平台-纳金网 J.S.Bach 圣巴赫_高端背景音乐系统_官网 | 拉力机-拉力试验机-万能试验机-电子拉力机-拉伸试验机-剥离强度试验机-苏州皖仪实验仪器有限公司 | 九州网址_专注于提供网址大全分享推广中文网站导航服务 | 湿地保护| 透平油真空滤油机-变压器油板框滤油机-滤油车-华之源过滤设备 | 磁力抛光研磨机_超声波清洗机厂家_去毛刺设备-中锐达数控 | 外贮压-柜式-悬挂式-七氟丙烷-灭火器-灭火系统-药剂-价格-厂家-IG541-混合气体-贮压-非贮压-超细干粉-自动-灭火装置-气体灭火设备-探火管灭火厂家-东莞汇建消防科技有限公司 | 蔡司三坐标-影像测量机-3D扫描仪-蔡司显微镜-扫描电镜-工业CT-ZEISS授权代理商三本工业测量 | 飞歌臭氧发生器厂家_水处理臭氧发生器_十大臭氧消毒机品牌 | 硬齿面减速机[型号全],ZQ减速机-淄博久增机械 | pbt头梳丝_牙刷丝_尼龙毛刷丝_PP塑料纤维合成毛丝定制厂_广州明旺 | 安驭邦官网-双向万能直角铣头,加工中心侧铣头,角度头[厂家直销] 闸阀_截止阀_止回阀「生产厂家」-上海卡比阀门有限公司 | 盐水蒸发器,水洗盐设备,冷凝结晶切片机,转鼓切片机,絮凝剂加药系统-无锡瑞司恩机械有限公司 | 掺铥光纤放大器-C/L波段光纤放大器-小信号光纤放大器-合肥脉锐光电技术有限公司 | 耐火砖厂家,异形耐火砖-山东瑞耐耐火材料厂| 西安中国国际旅行社(西安国旅) | 液压中心架,数控中心架,自定心中心架-烟台恒阳机电设计有限公司 行星搅拌机,双行星搅拌机,动力混合机,无锡米克斯行星搅拌机生产厂家 | 企典软件一站式企业管理平台,可私有、本地化部署!在线CRM客户关系管理系统|移动办公OA管理系统|HR人事管理系统|人力 | 浙江红酒库-冰雕库-气调库-茶叶库安装-医药疫苗冷库-食品物流恒温恒湿车间-杭州领顺实业有限公司 | 模温机-油温机-电加热导热油炉-工业冷水机「欧诺智能」 | 定量包装秤,吨袋包装称,伸缩溜管,全自动包装秤,码垛机器人,无锡市邦尧机械工程有限公司 | 液氨泵,液化气泵-淄博「亚泰」燃气设备制造有限公司 | 珠海冷却塔降噪维修_冷却塔改造报价_凉水塔风机维修厂家- 广东康明节能空调有限公司 | 工业铝型材-铝合金电机壳-铝排-气动执行器-山东永恒能源集团有限公司 | 排烟防火阀-消防排烟风机-正压送风口-厂家-价格-哪家好-德州鑫港旺通风设备有限公司 |