

高親和力抗體通常通過定向進(jìn)化來鑒定,這可能需要多次誘變和選擇迭代才能找到最佳候選者。深度學(xué)習(xí)技術(shù)有可能加速這一過程,但現(xiàn)有方法無法提供評(píng)估預(yù)測可靠性所需的置信區(qū)間或不確定性。
在這里,加州大學(xué)圣地亞哥分校的研究團(tuán)隊(duì)提出了一個(gè)名為 RESP 的管線,用于有效識(shí)別高親和力抗體。研究人員研發(fā)了一種在超過 300 萬個(gè)人類 B 細(xì)胞受體序列上訓(xùn)練的學(xué)習(xí)表征來編碼抗體序列。然后,他們開發(fā)了一個(gè)變分貝葉斯神經(jīng)網(wǎng)絡(luò),對(duì)一組按解離率分箱的定向進(jìn)化序列執(zhí)行序數(shù)回歸,并量化它們成為抗原緊密結(jié)合劑的可能性。
重要的是,該模型可以評(píng)估定向進(jìn)化庫中不存在的序列,從而大大擴(kuò)展搜索空間以發(fā)現(xiàn)用于實(shí)驗(yàn)評(píng)估的最佳序列。該團(tuán)隊(duì)通過將 PD-L1 抗體 Atezolizumab 的 KD 提高 17 倍來展示這條管線的力量,這一成功說明了 RESP 在促進(jìn)一般抗體開發(fā)方面的潛力。
該研究以「The RESP AI model accelerates the identification of tight-binding antibodies」為題,于 2023 年 1 月 28 日發(fā)布在《Nature Communications》。
單克隆抗體是最成功的生物療法之一。盡管它們具有令人印象深刻的多功能性和特異性,但治療性抗體的開發(fā)仍然面臨著各種復(fù)雜的挑戰(zhàn)。通常,初始命中的親和力不足,必須首先通過體外親和力成熟來改進(jìn)它們的結(jié)合,從而進(jìn)行反復(fù)的誘變和選擇具有改進(jìn)的親和力的抗體。這個(gè)過程通常是時(shí)間密集型的,可能需要幾個(gè)月才能完成,并且不能同時(shí)優(yōu)化其他理想的特性,如良好的溶解性和低免疫原性??梢詭椭斓刈R(shí)別具有理想特性的高親和力抗體的計(jì)算技術(shù)可能會(huì)加速這一過程。
抗體結(jié)合親和力的傳統(tǒng)計(jì)算方法依賴于自由能的估計(jì)。這些通常受到高計(jì)算成本、低吞吐量和這些方法生成的自由能估計(jì)的有限可靠性的限制?;蛘?,機(jī)器學(xué)習(xí)技術(shù)已應(yīng)用于蛋白質(zhì)工程和抗體設(shè)計(jì)中的各種任務(wù)。
基于機(jī)器學(xué)習(xí)的方法至少面臨兩個(gè)主要挑戰(zhàn)。第一個(gè)是結(jié)合親和力或其他屬性的預(yù)測缺乏估計(jì)的不確定性。由于訓(xùn)練數(shù)據(jù)只能覆蓋序列空間的一小部分,因此機(jī)器學(xué)習(xí)模型在被要求進(jìn)行遠(yuǎn)遠(yuǎn)超出其訓(xùn)練集范圍的推斷時(shí)通常表現(xiàn)不佳。深度學(xué)習(xí)模型雖然靈活而強(qiáng)大,但通常(在特定架構(gòu)之外)不提供置信區(qū)間或預(yù)測不確定性的估計(jì)。高斯過程模型已被建議作為一種替代方案,它確實(shí)提供了經(jīng)過良好校準(zhǔn)的置信區(qū)間,但它們?cè)诓皇褂媒浦档那闆r下很難擴(kuò)展到大型數(shù)據(jù)集,并且對(duì)于大于 5000 個(gè)序列的數(shù)據(jù)集通常是不可行的。
第二個(gè)關(guān)鍵挑戰(zhàn)是為輸入選擇合適的表示。文獻(xiàn)中描述了許多不同的蛋白質(zhì)編碼方案,包括最近采用語言模型的編碼方案;其中一些是抗體特異性的,一些是蛋白質(zhì)序列通用的。然而,對(duì)于其中哪一個(gè)最適合給定的問題,幾乎沒有達(dá)成共識(shí)。經(jīng)典的 one-hot 編碼方案實(shí)施起來很簡單,但不必要的高維和無信息,因?yàn)槊總€(gè)氨基酸都被視為彼此完全不同。
盡管這個(gè)過程漫長而昂貴,但許多由此產(chǎn)生的抗體在臨床試驗(yàn)中仍然無效。在最新的研究中,加州大學(xué)圣地亞哥分校的科學(xué)家們?cè)O(shè)計(jì)了一種最先進(jìn)的機(jī)器學(xué)習(xí)算法來加速和簡化這些工作。
有效開發(fā)抗體的新管線 RESP
加州大學(xué)圣地亞哥分校的研究人員在這里展示了一條有效開發(fā)抗體的新管線,RESP 管線。首先,他們開發(fā)了一種特定于抗體的簡單學(xué)習(xí)編碼。這里的編碼不僅包含易于恢復(fù)形式的原始序列中的信息,還包含描述將人類抗體與周圍序列空間區(qū)分開來的關(guān)鍵序列特征的附加編碼信息。
實(shí)驗(yàn)證明,當(dāng)在抗原特異性實(shí)驗(yàn)數(shù)據(jù)上訓(xùn)練模型以捕捉結(jié)合親和力的趨勢時(shí),如果使用他們的自動(dòng)編碼器生成的表示對(duì)輸入序列進(jìn)行編碼,則同一模型比使用流行的最先進(jìn)編碼(如UniRep、ESM-1b、AntiBertY和AbLang)對(duì)輸入序列編碼更準(zhǔn)確。
值得注意的是,對(duì)于這項(xiàng)特定任務(wù),使用加州大學(xué)團(tuán)隊(duì)考慮的所有模型,UniRep、ESM-1b、AntiBertY 和 AbLang 表現(xiàn)出不如單熱編碼的性能。這與之前 Makowski 團(tuán)隊(duì)報(bào)告的結(jié)果一致,即,與簡單的單熱編碼相比,UniRep 或物理化學(xué)特性并未提高抗體親和力預(yù)測的性能。
然后,加州大學(xué)的研究人員使用旨在提供直接且易于解釋的序列排名以及不確定性量化的模型來擬合訓(xùn)練集。他們展示了序列讀取跨類別的分布可以以一種有原則和直接的方式作為數(shù)據(jù)點(diǎn)權(quán)重納入模型擬合。他們的貝葉斯有序回歸模型產(chǎn)生預(yù)測后驗(yàn)估計(jì),從而提供傳統(tǒng)深度學(xué)習(xí)分類器無法獲得的額外信息,其跨類別的預(yù)測概率分布并不表明給定預(yù)測的可靠性。
最后,加州大學(xué)團(tuán)隊(duì)設(shè)計(jì)了一種算法來探索訓(xùn)練集跨越的序列空間。通過估計(jì)每個(gè)預(yù)測的可靠性,并將搜索限制在訓(xùn)練集所跨越的空間內(nèi),該團(tuán)隊(duì)最大限度地減少了評(píng)估不良候選序列所浪費(fèi)的時(shí)間和費(fèi)用。
「使用我們的機(jī)器學(xué)習(xí)工具,這些后續(xù)輪次的序列突變和選擇可以在計(jì)算機(jī)上而不是在實(shí)驗(yàn)室中快速有效地進(jìn)行?!辜又荽髮W(xué)圣地亞哥分校醫(yī)學(xué)院細(xì)胞與分子醫(yī)學(xué)教授、資深作者 Wei Wang 博士說。了解更多詳細(xì)內(nèi)容,添加顧問老師VXX:Tops6868
總結(jié):
當(dāng)前,研究人員現(xiàn)在正在使用這種方法來鑒定針對(duì)其他抗原(例如 SARS-CoV-2)的有前途的抗體。他們還在開發(fā)額外的 AI 模型,分析氨基酸序列以獲得對(duì)臨床試驗(yàn)成功至關(guān)重要的其他抗體特性,例如穩(wěn)定性、溶解度和選擇性。
「通過結(jié)合這些人工智能工具,科學(xué)家們可能能夠在計(jì)算機(jī)上,而不是在實(shí)驗(yàn)臺(tái)上進(jìn)行越來越多的抗體發(fā)現(xiàn)工作。這可能會(huì)導(dǎo)致發(fā)現(xiàn)過程更快、更不易出錯(cuò)。」 Wei Wang 說,「這條管線有很多應(yīng)用,而這些發(fā)現(xiàn)實(shí)際上只是一個(gè)開始。」
以上就是UCSD大學(xué)稱AI有助于發(fā)現(xiàn)超緊密結(jié)合抗體的相關(guān)內(nèi)容。如果您對(duì)美國留學(xué)感興趣,歡迎您在線咨詢托普仕留學(xué)老師,托普仕留學(xué)專注美國前30高校申請(qǐng),助力國內(nèi)學(xué)子順利獲得美國藤校入讀資格。
熱門文章: