紐約大學(xué)團隊開發(fā)用于基因組學(xué)的神經(jīng)網(wǎng)絡(luò),并解釋了它如何實現(xiàn)準(zhǔn)確的預(yù)測 - IT思維
公眾號/? ScienceAI(ID:Philosophyai)
編輯 | 蘿卜皮
機器學(xué)習(xí)方法,特別是在大型數(shù)據(jù)集上訓(xùn)練的神經(jīng)網(wǎng)絡(luò),正在改變科學(xué)家進行科學(xué)發(fā)現(xiàn)和實驗設(shè)計的方式。然而,當(dāng)前最先進的神經(jīng)網(wǎng)絡(luò)因其不可解釋性而受到限制:盡管他們具有出色的準(zhǔn)確性,但他們無法描述他們是如何得出預(yù)測的。
紐約大學(xué)的研究團隊使用「可解釋的設(shè)計」方法,提出了一種神經(jīng)網(wǎng)絡(luò) 模型 ,它揭示了神經(jīng)網(wǎng)絡(luò)(驅(qū)動人工智能和 機器學(xué)習(xí) 的引擎)功能的原因。該模型可以深入了解 RNA 剪接,這是將基因組信息轉(zhuǎn)移到功能性 RNA 和蛋白質(zhì)產(chǎn)物的基本過程。
「許多神經(jīng)網(wǎng)絡(luò)都是黑匣子,這些算法無法解釋它們的工作原理,引發(fā)人們對其可信度的擔(dān)憂,并阻礙理解基因組編碼的潛在生物過程的研究進展?!辜~約大學(xué)庫朗數(shù)學(xué)科學(xué)研究所計算機科學(xué)教授 Oded Regev 說。
該研究以「Deciphering RNA splicing logic with interpretable machine learning」為題,于 2023 年 10 月 5 日發(fā)布在《PNAS》。
機器學(xué)習(xí)算法,特別是神經(jīng)網(wǎng)絡(luò),捕獲輸入和輸出之間復(fù)雜的定量關(guān)系。然而,由于神經(jīng)網(wǎng)絡(luò)通常是黑匣子,因此很難提取事后洞察來了解它們是如何做到的。此外,它們很容易捕獲訓(xùn)練 數(shù)據(jù) 中的偽影或偏差,通常無法推廣到用于訓(xùn)練和測試的數(shù)據(jù)集之外,并且一般不會深入了解底層流程。
近年來,神經(jīng)網(wǎng)絡(luò)已被用來解決具有挑戰(zhàn)性的生物學(xué)問題?;蚪M學(xué)中的一個突出問題是理解 RNA 剪接的調(diào)控邏輯,它在信息從 DNA 到功能性 RNA 和蛋白質(zhì)產(chǎn)物的基本轉(zhuǎn)移中發(fā)揮著關(guān)鍵作用。剪接去除內(nèi)含子并將外顯子連接在一起形成成熟的RNA轉(zhuǎn)錄本。雖然一些規(guī)范序列特征對于外顯子定義是必要的(在內(nèi)含子去除過程中使用的界定外顯子和分支點的剪接位點),但外顯子序列也有助于外顯子定義。
盡管近期使用神經(jīng)網(wǎng)絡(luò)預(yù)測剪接結(jié)果取得了成功,但了解外顯子序列如何決定包含或跳過仍然是一個開放的挑戰(zhàn)。剪接邏輯的敏感性進一步凸顯了這一挑戰(zhàn),其中沿著外顯子的幾乎所有單核苷酸變化都會導(dǎo)致剪接結(jié)果的巨大變化。
為了實現(xiàn)科學(xué)進步,機器學(xué)習(xí)模型不僅應(yīng)該準(zhǔn)確預(yù)測結(jié)果,還應(yīng)該描述它們?nèi)绾蔚贸鲱A(yù)測。在這里,紐約大學(xué)的研究人員證明了「可解釋設(shè)計」模型在不犧牲可解釋性的情況下實現(xiàn)了預(yù)測準(zhǔn)確性,捕獲了統(tǒng)一的決策邏輯,并揭示了以前未表征的剪接特征。
圖示:數(shù)據(jù)生成和可解釋的設(shè)計機器學(xué)習(xí)模型。(來源:論文)
「通過利用一種提高機器學(xué)習(xí)訓(xùn)練數(shù)據(jù)數(shù)量和質(zhì)量的新方法,我們設(shè)計了一種可解釋的神經(jīng)網(wǎng)絡(luò),可以準(zhǔn)確預(yù)測復(fù)雜的結(jié)果并解釋它是如何得出預(yù)測的?!筊egev 說。
模型的可解釋性使人們能夠系統(tǒng)地理解 RNA 剪接邏輯,包括識別兩個候選外顯子跳躍特征,并隨后進行實驗驗證。該模型能夠量化特定特征對單個外顯子剪接結(jié)果的貢獻,對于一系列醫(yī)療和生物技術(shù)應(yīng)用具有巨大的潛力,包括對目標(biāo)外顯子進行基因組或 RNA 編輯以糾正剪接行為或指導(dǎo)基于 RNA 的療法(如反義寡核苷酸)的合理設(shè)計。
此外,模型識別的特征暗示了值得進一步研究的新生化機制。例如,剪接決策通過附加量很好地建模,這一事實支持涉及 SR 和 hnRNP 蛋白核空間組織的生化機制。
Regev 指出:「我們的模型表明,RNA 中的一種小型發(fā)夾狀結(jié)構(gòu)可以減少剪接。」
圖示:發(fā)卡結(jié)構(gòu)的驗證。(來源:論文)
另外,該模型還發(fā)現(xiàn)了兩個不尋常的外顯子跳躍特征。這些特征可能被未表征的 RNA 結(jié)合蛋白或復(fù)合物識別。或者,引入高度結(jié)構(gòu)化或非結(jié)構(gòu)化區(qū)域可能會改變剪接位點之間的物理距離,從而增強外顯子跳躍。這些懸而未決的問題進一步強調(diào)了可解釋設(shè)計模型如何通過幫助假設(shè)生成來推進科學(xué)發(fā)現(xiàn)。
該模型在來自永生化細(xì)胞系的合成數(shù)據(jù)集上表現(xiàn)良好,但需要進一步的工作來捕獲發(fā)育調(diào)節(jié)剪接邏輯的動態(tài)。重要的是,剪接結(jié)果的變化取決于細(xì)胞類型特異性 RNA 結(jié)合蛋白的表達水平。這些問題可以通過在發(fā)育相關(guān)的細(xì)胞類型中生成額外的合成剪接數(shù)據(jù)集以及捕獲細(xì)胞類型特異性調(diào)控特征的可解釋設(shè)計模型來解決。
除了剪接的背景之外,可解釋的設(shè)計框架還可用于破譯決定生物分子加工的多個、復(fù)雜和重疊的代碼。重要的是,許多豐富的合成數(shù)據(jù)集已經(jīng)生成,涉及 RNA 非翻譯 5′ 和 3′ 區(qū)域調(diào)控、甲基化和小 RNA 生物發(fā)生。研究人員認(rèn)為,額外的數(shù)據(jù)生成工作與可解釋的設(shè)計框架相結(jié)合將促進更廣泛地理解生物密碼的進步。
論文鏈接:https://www.pnas.org/doi/10.1073/pnas.2221165120
相關(guān)報道:https://techxplore.com/news/2023-10-neural-network-genomics-accurate.html