聯(lián) 系 人:吉恩特客服
手 機(jī):136-0866-9917(微信同號(hào))
地 址:河南省洛陽(yáng)市高新區(qū)火炬創(chuàng)業(yè)園
蛋白質(zhì)結(jié)構(gòu)和功能的形成,很大程度上取決于側(cè)鏈原子間的相互作用,因此,精準(zhǔn)的蛋白質(zhì)側(cè)鏈預(yù)測(cè)(PSCP)是解決蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)和蛋白質(zhì)設(shè)計(jì)難題的關(guān)鍵一環(huán)。但此前蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)大多聚焦于主鏈結(jié)構(gòu),側(cè)鏈結(jié)構(gòu)預(yù)測(cè)始終是一個(gè)未被完全解決的難題。
分子之心許錦波團(tuán)隊(duì)推出一種新的PSCP深度架構(gòu)AttnPacker,在速度、內(nèi)存效率和整體精度方面取得大幅提升,是目前已知的***優(yōu)側(cè)鏈結(jié)構(gòu)預(yù)測(cè)算法,也是全球首創(chuàng)的可同時(shí)進(jìn)行蛋白質(zhì)側(cè)鏈預(yù)測(cè)和序列設(shè)計(jì)的AI算法。
相關(guān)論文發(fā)表在了《美國(guó)國(guó)家科學(xué)院院刊》(PNAS)上,論文題為:An end-to-end deep learning method for protein side-chain packing and inverse folding。其預(yù)訓(xùn)練模型、源代碼和推理腳本都已在Github上開源。
背景
蛋白質(zhì)由數(shù)個(gè)氨基酸折疊而成,其結(jié)構(gòu)分為主鏈和側(cè)鏈。側(cè)鏈的差異性對(duì)蛋白質(zhì)的結(jié)構(gòu)與功能有巨大影響,尤其是生物活性?;趯?duì)側(cè)鏈結(jié)構(gòu)的清晰認(rèn)知,科學(xué)家們能夠更精準(zhǔn)地測(cè)定蛋白質(zhì)三維結(jié)構(gòu),解析蛋白質(zhì)-蛋白質(zhì)之間的相互作用,并進(jìn)行理性蛋白設(shè)計(jì)。應(yīng)用到藥物設(shè)計(jì)領(lǐng)域,科學(xué)家們便能更快、更準(zhǔn)確地找到適合藥物與受體的結(jié)合點(diǎn)位,甚至根據(jù)需要優(yōu)化或設(shè)計(jì)結(jié)合點(diǎn)位;在酶優(yōu)化領(lǐng)域,科學(xué)家們可以通過(guò)對(duì)序列的優(yōu)化改造,讓多個(gè)側(cè)鏈參與催化反應(yīng),實(shí)現(xiàn)更***、特異性更高的催化效果。
當(dāng)前大多數(shù)蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)算法主要針對(duì)主鏈的結(jié)構(gòu)解析,但蛋白質(zhì)側(cè)鏈結(jié)構(gòu)預(yù)測(cè)還是一個(gè)未被完全突破的難題。無(wú)論是AlphaFold2等熱門蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)算法,還是DLPacker、RosettaPacker等專注側(cè)鏈結(jié)構(gòu)預(yù)測(cè)的算法,準(zhǔn)確度或速度都不盡如人意。這也為蛋白質(zhì)設(shè)計(jì)帶來(lái)了***。
傳統(tǒng)方法,如RosettaPacker,主要使用能量?jī)?yōu)化方法,先對(duì)側(cè)鏈原子的分布進(jìn)行分組,再針對(duì)某個(gè)特定氨基酸來(lái)搜索側(cè)鏈的分組,尋找能量***小的組合。這些方法主要區(qū)別于研究者對(duì)旋轉(zhuǎn)異構(gòu)體文庫(kù)、能量函數(shù)和能量***小化程序的選擇,準(zhǔn)確性受限于對(duì)搜索啟發(fā)式方法和離散抽樣程序的使用。業(yè)界也有基于深度學(xué)習(xí)的側(cè)鏈預(yù)測(cè)方法,如DLPacker,它將PSCP表述為圖像到圖像的轉(zhuǎn)換問題,并采用了U-net模型結(jié)構(gòu)。但預(yù)測(cè)精度和速度依然不夠理想。
方法
AttnPacker是一種端到端的預(yù)測(cè)蛋白質(zhì)側(cè)鏈坐標(biāo)的深度學(xué)習(xí)方法。它聯(lián)合模擬了側(cè)鏈相互作用,直接預(yù)測(cè)的側(cè)鏈結(jié)構(gòu)在物理上更可行,具有更少的原子碰撞和更理想的鍵長(zhǎng)和角度。
具體而言,AttnPacker引入了一種利用PSCP的幾何和關(guān)系方面的深度圖轉(zhuǎn)換器架構(gòu)。受AlphaFold2啟發(fā),分子之心提出了位置感知三角形更新,以使用基于圖形的框架來(lái)計(jì)算三角形注意力和乘法更新,從而優(yōu)化成對(duì)特征。
通過(guò)這種方法,AttnPacker的內(nèi)存顯著減少并擁有更高容量的模型。此外,分子之心探索了幾種SE(3)等變注意力機(jī)制,并提出了一種用于從3D點(diǎn)學(xué)習(xí)的等變變換器架構(gòu)。
圖注:AttnPacker運(yùn)行流程。以蛋白質(zhì)主鏈坐標(biāo)和序列作為輸入,并基于坐標(biāo)信息導(dǎo)出空間特征圖和等變基。特征圖由不變量graph-transformer模塊處理,然后傳遞給一個(gè)等變的TFN-Transformer輸出預(yù)測(cè)的側(cè)鏈坐標(biāo)、每個(gè)殘基的置信度分?jǐn)?shù)和可選的設(shè)計(jì)序列。預(yù)測(cè)坐標(biāo)經(jīng)過(guò)后處理,以去除所有空間沖突,并確保理想化的幾何結(jié)構(gòu)。
效果
在預(yù)測(cè)效果上,AttnPacker對(duì)天然和非天然主鏈結(jié)構(gòu)都顯示出準(zhǔn)確性和效率上的改進(jìn)。同時(shí)保證了物理上的可行性,與理想鍵長(zhǎng)和角度的偏差可以忽略不計(jì),且產(chǎn)生了***小的原子空間位阻。
分子之心在CASP13和 CASP14天然和非天然蛋白質(zhì)主鏈數(shù)據(jù)集上對(duì)AttnPacker與目前***先進(jìn)的方法——SCWRL4、FASPR、RosettaPacker和DLPacker進(jìn)行對(duì)比測(cè)試。結(jié)果顯示,AttnPacker在CASP13和CASP14天然主鏈上顯著優(yōu)于傳統(tǒng)蛋白質(zhì)側(cè)鏈預(yù)測(cè)方法,平均重建RMSD比每個(gè)測(cè)試集上的次優(yōu)方法低18%以上。AttnPacker還超越了深度學(xué)習(xí)方法DLPacker,平均RMSD降低了11%以上,同時(shí)也顯著提高了側(cè)鏈二面角精度。除了準(zhǔn)確性,AttnPacker的原子碰撞明顯少于其他方法。
DNA提取是分析農(nóng)作物分子生物學(xué)性狀的重要步驟,現(xiàn)階段,常用的DNA提取技術(shù)有磁珠法和離心柱法,使用磁珠進(jìn)行農(nóng)作物的DNA提取,可以實(shí)現(xiàn)高通量、自動(dòng)化的操作。由于磁珠對(duì)核酸的吸附靈敏度高,只需要少量的葉片或其他組織即可得到高得率、高純度的DNA。吉恩特生物采用自主研發(fā)生產(chǎn)的納米生物磁珠和磁珠法DNA提取試劑盒,可以從各種類型的農(nóng)作物中提取高質(zhì)量的核酸,配合核酸提取儀,可以達(dá)到快速自動(dòng)化提取的目的。
洛陽(yáng)吉恩特生物科技有限公司
聯(lián)系人:吉恩特客服
手機(jī):136-0866-9917(微信同號(hào))
地址:河南省洛陽(yáng)市高新區(qū)火炬創(chuàng)業(yè)園