[發明專利]一種CRISPR/Cas9靶向敲除定點DNA效率的預測方法有效
| 申請號: | 202010317611.4 | 申請日: | 2020-04-21 |
| 公開(公告)號: | CN111489787B | 公開(公告)日: | 2023-05-12 |
| 發明(設計)人: | 樊永顯;徐海波;朱慶祺;崔娟 | 申請(專利權)人: | 桂林電子科技大學 |
| 主分類號: | G16B15/30 | 分類號: | G16B15/30;G16B40/00 |
| 代理公司: | 桂林市華杰專利商標事務所有限責任公司 45112 | 代理人: | 覃永峰 |
| 地址: | 541004 廣西*** | 國省代碼: | 廣西;45 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 crispr cas9 靶向 定點 dna 效率 預測 方法 | ||
本發明公開了一種CRISPR/Cas9靶向敲除定點DNA效率的預測方法,其特征在于,包括如下步驟:1)構建數據集;2)對序列進行編碼;3)采用卷積神經網絡進行特征提取;4)構建XGBoost預測器得到結果。這種方法預測速度快、精度高。
技術領域
本發明涉及計算機以及生物信息學領域,具體是一種CRISPR/Cas9靶向敲除定點DNA效率的預測方法。
背景技術
CRISPR/Cas9原本是一種細菌以及古生菌中的一種免疫系統,用于對抗噬菌體侵入細菌體內的DNA序列,其主要通過識別特定的DNA序列,并對外來DNA鏈進行靶向切割,破壞外源的DNA結構和功能,形成免疫能力。當外源DNA入侵時,CRISPR/Cas9通過PAM序列(通常為NGG三個堿基,其中N為A,C,G,T任意一個堿基)的方式來識別潛在的靶向位點,并通過crRNA與tracrRNA復合體與目標DNA的20個堿基發生堿基互補配對來與目標DNA結合,從而使Cas9核酸酶在PAM序列上游3個堿基的位置裂解目標DNA鏈。CRISPR/Cas9這種可以對特定的DNA片段進行定向修改的能力被應用于基因編輯領域,成為繼鋅指核酸酶和類轉錄激活效應酶之后的第三代基因組定點編輯技術。相比上兩代基因編輯技術需要針對特定DNA片段設計特定的蛋白來定位到目標DNA,CRISPR/Cas9基因編輯技術通過將原生CRISPR/Cas9系統中的crRNA與tracrRNA整合成單個sgRNA,因而僅僅需要設計長度為20個堿基的sgRNA序列便可通過堿基互補配對定位到特定的DNA片段,因而具有成本低,設計方便的優點。理論上,只要長度為20個堿基的sgRNA序列與目標DNA相匹配,并且DNA鏈上存在PAM序列,CRISPR/Cas9系統便可與目標位點結合并且裂解該位點,然而在實際中,不同sgRNA定位到目標位點的裂解效率可能存在著巨大的差異,因而,確定高效率的CRISPR/Cas9靶向位點是有必要的。搜索基因組中的靶向位點可簡單的通過搜索PAM序列來獲得,然而如何確定靶向位點的裂解效率是相當困難的。由于人類基因組的DNA數據非常龐大,通過生物方法針對每一個可能的位點進行效率驗證從時間和成本上考慮都是不可取的,因而從現有的實驗數據獲得其中的統計學規律,通過統計學或機器學習方法對未知位點的靶向效率進行預測是有必要的。目前,國內外針對靶向效率進行預測的工具主要分為兩大類:第一類基于權重,通過對序列的每個堿基以及PAM分配權重來獲得最終的靶向效率預測結果;第二類基于機器學習,通過構建可能會影響CRISPR/Cas9靶向效率的特征來使用機器學習方法進行預測。從具體實現上,這些成果所采用的技術可分為:基于支持向量機(SVM)的方法(Doench?JG,Hartenian?E,Graham?DB,Tothova?Z,Hegde?M,Smith?I,Sullender?M,Ebert?BL,XavierRJ,Root?DE(2014)Rational?design?of?highly?active?sgRNAs?for?CRISPR-Cas9-mediated?gene?inactivation.Nat?Biotechnol?32(12):1262.);基于卷積神經網絡(KimHK,Min?S,Song?M,Jung?S,Choi?JW,Kim?Y,Lee?S,Yoon?S,Kim?HH.Deep?learningimproves?prediction?of?CRISPR-Cpf1?guide?RNA?activity.Nat?Biotechnol,2018,36(3):239–241.);基于梯度提升樹(GBDT)(Donovan?KF,Smith?I,Tothova?Z,Wilen?C,Orchard?R,Virgin?HW,Listgarten?J,Root?DE(2016)Optimized?sgRNA?design?tomaximize?activity?and?minimize?off-target?effects?of?CRISPRCas9.NatBiotechnol?34(2):184.);基于邏輯回歸(Moreno-Mateos?MA,Vejnar?CE,Beaudoin?JD,Fernandez?JP,Mis?EK,Khokha?MK,Giraldez?AJ(2015)CRISPRscan:designing?highlyefficient?sgRNAs?for?CRISPR-Cas9?targeting?in?vivo.Nat?Methods?12(10):982.),以上這些技術都是機器學習方法在CRISPR/Cas9靶向效率預測方面的應用。然而,基于權重的方法通常預測性能較低,基于機器學習的方法則需要繁瑣的特征構建過程并且預測精度可以進一步提高。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于桂林電子科技大學,未經桂林電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010317611.4/2.html,轉載請聲明來源鉆瓜專利網。





