CRISPR基因編輯技術(shù)自2013年被科學(xué)家首次證明可以在哺乳動(dòng)物細(xì)胞內(nèi)實(shí)現(xiàn)高效的基因組編輯以來(lái),正在徹底改變生物醫(yī)學(xué)基礎(chǔ)研究和臨床研究領(lǐng)域。越來(lái)越多的研究者已經(jīng)在包括開(kāi)發(fā)新型基因編輯工具酶或者優(yōu)化向?qū)NA(gRNA)的設(shè)計(jì)方面進(jìn)行了很多嘗試,希望可以借此提高CRISPR的性能。
(資料圖片僅供參考)
利用合成gRNA-靶序列的高通量文庫(kù)允許直接在細(xì)胞環(huán)境下中便捷和高通量地收集gRNA活性數(shù)據(jù),由此建立的計(jì)算模型來(lái)預(yù)測(cè)gRNA的活性比較可靠。在以往的研究中,約10000至50000條合成的gRNA-靶序列被用于量化gRNA的靶向效率、特異性或修復(fù)結(jié)果。
然而,人類基因組有6108個(gè)具有NGG PAM的潛在gRNA,這導(dǎo)致早期研究中采樣的gRNA覆蓋率僅為0.002%-0.009%。在這個(gè)采樣范圍內(nèi),已有的計(jì)算工具預(yù)測(cè)的gRNA活性和用于建模的實(shí)測(cè)gRNA活性相關(guān)性約為0.8(Spearman相關(guān)性),還有很大上升空間。并且截至目前,還沒(méi)有一個(gè)從多個(gè)維度預(yù)測(cè)gRNA活性(如,gRNA切割活性、gRNA脫靶活性、gRNA切割后基因組修復(fù)的圖譜)的綜合工具。
近日,西湖大學(xué)生命科學(xué)學(xué)院馬麗佳研究員團(tuán)隊(duì)在Cell Discovery期刊發(fā)表了題為:Deep sampling of gRNA in the human genome and deep-learning-informed prediction of gRNA activities的研究論文。
該論文介紹了團(tuán)隊(duì)開(kāi)發(fā)的一種基于全新策略構(gòu)建的深度學(xué)習(xí)模型,能有效預(yù)測(cè)CRISPR多維gRNA性能。
首先,研究人員將74萬(wàn)條gRNA(740k文庫(kù))及gRNA靶點(diǎn)序列合成在一條oligo上(每個(gè)gRNA靶點(diǎn)序列包括20-nt上游基因組序列、20-nt靶標(biāo)序列、3-nt PAM序列和20-nt下游基因組序列),該文庫(kù)除了團(tuán)隊(duì)設(shè)計(jì)的gRNA之外,還包含多個(gè)已發(fā)表的CRISPR KO screening(通過(guò)CRISPR系統(tǒng)構(gòu)建基因組文庫(kù)進(jìn)行高通量基因敲除篩選)文庫(kù),包括Brunello、GecKOv2、Sabatini、TorontoKoV3和YusaKoV1。740k文庫(kù)占人類基因組中所有具有NGG-PAM的gRNA數(shù)量的約0.16%(遠(yuǎn)高于以往研究中0.002%~0.009%的覆蓋率)。隨后通過(guò)慢病毒轉(zhuǎn)導(dǎo)入穩(wěn)定表達(dá)SpCas9的人體細(xì)胞系內(nèi),對(duì)合成的gRNA靶點(diǎn)序列上下游設(shè)計(jì)引物PCR進(jìn)行深度測(cè)序即可實(shí)現(xiàn)高通量地檢測(cè)gRNA的活性,同時(shí)還可評(píng)估對(duì)應(yīng)gRNA切割基因組后,基因組的修復(fù)圖譜(圖1)。
圖1:高通量檢測(cè)gRNA體內(nèi)活性策略的流程圖
為了開(kāi)發(fā)gRNA活性預(yù)測(cè)模型,研究人員首先比較了九種機(jī)器學(xué)習(xí)算法,包括七種傳統(tǒng)算法和兩種基于深度學(xué)習(xí)的算法,結(jié)果發(fā)現(xiàn)RNN是在所有測(cè)試算法中性能最好,實(shí)測(cè)的gRNA效率和預(yù)測(cè)效率之間的Spearman相關(guān)系數(shù)在0.875到0.911之間。值得注意的是,相比這項(xiàng)研究中使用了74萬(wàn)條gRNA,以往的研究只用了1萬(wàn)至5萬(wàn)條gRNA序列的數(shù)據(jù)進(jìn)行深度學(xué)習(xí)模型構(gòu)建。
那么,在數(shù)據(jù)量和模型性能之間,什么數(shù)據(jù)量是生物學(xué)實(shí)驗(yàn)投入和模型性能獲益之間的最佳值呢?
帶著這個(gè)疑問(wèn),研究團(tuán)隊(duì)又將740k文庫(kù)分為8個(gè)子庫(kù),分別疊加子文庫(kù)行深度模型構(gòu)建,利用十折交叉驗(yàn)證進(jìn)行評(píng)估,最終建立了8組模型,結(jié)果表明隨著文庫(kù)大小的增加,8組模型的預(yù)測(cè)性能Spearman相關(guān)系數(shù)中位數(shù)從0.810逐漸提高到0.898。在包含超過(guò)220k個(gè)gRNA后,模型性能趨于平穩(wěn)。本研究給出了gRNA數(shù)據(jù)規(guī)模對(duì)提升模型性能的重要參考,對(duì)后續(xù)類似工作如何設(shè)計(jì)實(shí)驗(yàn)具有重要的指導(dǎo)意義。隨著一系列建模參數(shù)的測(cè)試,研究人員最終確定將63bp的序列(23bp靶序列和上游、下游各20bp)作為RNN模型的輸入序列,并將其訓(xùn)練得到的深度學(xué)習(xí)模型命名為“AIdit_ON”(圖2)。
圖2:建立預(yù)測(cè)gRNA活性的AIdit_ON模型的流程圖
為了進(jìn)一步評(píng)估AIdit_ON模型在不同細(xì)胞類型中的泛化性能,研究人員基于多個(gè)公開(kāi)可用的內(nèi)源數(shù)據(jù)集,比較了AIdit_ON和11個(gè)已發(fā)表的計(jì)算工具,結(jié)果顯示AIdit_ON模型在所有公共數(shù)據(jù)集中的表現(xiàn)要優(yōu)于所有其他模型(圖3)。同樣地,對(duì)于本研究產(chǎn)出的不同細(xì)胞系內(nèi)源的gRNA活性數(shù)據(jù)(293T n=78;K562 n=75;H1 n=71),AIdit_ON模型的表現(xiàn)也優(yōu)于其他模型(圖3)。
圖3:不同數(shù)據(jù)集的indel頻率和12個(gè)模型預(yù)測(cè)效率之間的Spearman相關(guān)系數(shù)的熱圖
此外,K562和Jurkat細(xì)胞中740k文庫(kù)的數(shù)據(jù)集使研究人員能夠進(jìn)一步檢測(cè)這兩種細(xì)胞類型中DSB(DNA雙鏈斷裂)誘導(dǎo)的基因組修復(fù)結(jié)果。在仔細(xì)分析Jurkat和K562細(xì)胞的DSB修復(fù)圖譜時(shí)候,研究人員有了意外的發(fā)現(xiàn)。在K562中,超過(guò)65%的SpCas9/gRNA誘導(dǎo)的DSBs被修復(fù)為缺失類型(Deletion),這與以往研究的大多數(shù)細(xì)胞類型中發(fā)現(xiàn)的現(xiàn)象一致。相反,插入(Insertion)在Jurkat細(xì)胞中占主導(dǎo)地位(大于60%)(圖4)。研究人員大膽假設(shè),Jurkat細(xì)胞的一種獨(dú)特特性可能是導(dǎo)致Insertion主導(dǎo)修復(fù)結(jié)果的原因。經(jīng)過(guò)驗(yàn)證,研究人員證實(shí)了他們的猜想,他們找到了一個(gè)在Jurkat特異性高表達(dá)的基因DNTT,該基因是控制Jurkat中DSB修復(fù)的主導(dǎo)基因。敲除Jurkat中的DNTT會(huì)改變其修復(fù)結(jié)果,使其與K562細(xì)胞的修復(fù)結(jié)果更相似。相反,在K562細(xì)胞中過(guò)表達(dá)DNTT時(shí),Insertion成為最主要的DSB修復(fù)圖譜。這些數(shù)據(jù)表明,由SpCas9/gRNA介導(dǎo)的DSB誘導(dǎo)的修復(fù)結(jié)果是DNTT依賴性的。
為構(gòu)建精準(zhǔn)預(yù)測(cè)DSB修復(fù)圖譜模型,研究人員首先為每個(gè)修復(fù)類別訓(xùn)練了一個(gè)單獨(dú)的XGBoost模型,這些模型的輸出結(jié)合序列特征和微同源特征成為最終模型訓(xùn)練的特征。在K562數(shù)據(jù)上訓(xùn)練的模型被命名為AIdit_DSB_K562,在Jurkat數(shù)據(jù)上訓(xùn)練過(guò)的模型被稱為AIdit_DSB_Jurkat。為了評(píng)估模型的泛化性能,研究人員比較了已公開(kāi)發(fā)表的預(yù)測(cè)模型ForeCasT和Lindel,在所有非Jurkat細(xì)胞系的測(cè)試數(shù)據(jù)集中,AIdit_DSB_K562模型的表現(xiàn)優(yōu)于Lindel和ForeCasT模型?;趶牟煌凳占钠渌矓?shù)據(jù)集的結(jié)果,包括REP1、CHO、E14TG2A和HAP1,也證明了AIdit_DSB_K562模型的優(yōu)越性能。AIdit_DSB_Jurkat對(duì)非Jurkat數(shù)據(jù)的預(yù)測(cè)效力低,但在Jurkat測(cè)試數(shù)據(jù)集中實(shí)現(xiàn)了高精準(zhǔn)的預(yù)測(cè)。根據(jù)DSB修復(fù)的DNTT依賴性,后續(xù)研究人員可以用DNTT的表達(dá)量來(lái)指導(dǎo)模型選擇和預(yù)測(cè)不同細(xì)胞類型特異的SpCas9/gRNA DSB修復(fù)圖譜。這個(gè)重要現(xiàn)象的發(fā)現(xiàn),解釋了有些情況下模型預(yù)測(cè)性能無(wú)法在不同細(xì)胞類型中實(shí)現(xiàn)泛化的原因,其實(shí)是背后的基本生物學(xué)原理決定的。這也提示生物學(xué)數(shù)據(jù)指導(dǎo)下的AI模型,既需要產(chǎn)生足夠的、與問(wèn)題直接相關(guān)的數(shù)據(jù),也需要考量有生物學(xué)意義的參數(shù)。
圖4:SpCas9誘導(dǎo)的DSB修復(fù)類型在Jurkat WT, Jurkat DNTT-KO,K562 WT和K562 DNTT-OE細(xì)胞中的分布。
最后,研究人員應(yīng)用了類似的策略來(lái)衡量SpCas9/gRNA在非匹配靶序列上的脫靶活性。研究人員設(shè)計(jì)了一個(gè)包含180萬(wàn)條gRNA脫靶序列的文庫(kù)(180k),并基于該文庫(kù)產(chǎn)生的高通量測(cè)序數(shù)據(jù)構(gòu)建了預(yù)測(cè)SpCas9/gRNA脫靶活性的機(jī)器學(xué)習(xí)模型,即AIdit_OFF。結(jié)果表明,在多個(gè)GUIDE-seq測(cè)試數(shù)據(jù)集上相對(duì)于應(yīng)用較廣的CFD模型,AIdit_OFF無(wú)論特異性還是召回率表現(xiàn)的都更好,且將預(yù)測(cè)gRNA脫靶位點(diǎn)的精準(zhǔn)率平均提高了2.6倍。