[發(fā)明專利]一種細(xì)胞特異性基因組G-四鏈體的預(yù)測方法有效
| 申請?zhí)枺?/td> | 202110030502.9 | 申請日: | 2021-01-11 |
| 公開(公告)號: | CN113160877B | 公開(公告)日: | 2022-11-25 |
| 發(fā)明(設(shè)計(jì))人: | 孫嘯;張卓凡;居勝紅;楊婧;劉宏德 | 申請(專利權(quán))人: | 東南大學(xué) |
| 主分類號: | G16B15/30 | 分類號: | G16B15/30;G16B20/20 |
| 代理公司: | 南京蘇高專利商標(biāo)事務(wù)所(普通合伙) 32204 | 代理人: | 丁靜靜 |
| 地址: | 211102 江*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 細(xì)胞 特異性 基因組 四鏈體 預(yù)測 方法 | ||
1.一種細(xì)胞特異性的G4-DNA預(yù)測方法,其特征在于,包括以下步驟:
(1)產(chǎn)生給定物種所有潛在的G4-DNA序列集合:所述潛在的G4-DNA序列包括:規(guī)則的G4-DNA序列和奇異的G4-DNA序列;
(2)收集該物種實(shí)驗(yàn)檢測所獲得的體內(nèi)細(xì)胞特異性G4-DNA數(shù)據(jù):體內(nèi)細(xì)胞特異性G4-DNA數(shù)據(jù)由G4 ChIP-seq測序?qū)嶒?yàn)提供,收集利用該技術(shù)檢測不同細(xì)胞所獲得的原始實(shí)驗(yàn)數(shù)據(jù),得到細(xì)胞特異性G4-DNA集合,本方法濾去長度小于15bp的序列,細(xì)胞特異性G4-DNA集合以BED文件形式存儲,條目形式為“chrom,chromStart,chromEnd”;
(3)收集細(xì)胞特異的染色質(zhì)開放結(jié)構(gòu)數(shù)據(jù)和DNA甲基化數(shù)據(jù):
所述細(xì)胞特異的染色質(zhì)開放結(jié)構(gòu)數(shù)據(jù)的分析方法如下:處理對應(yīng)細(xì)胞由染色質(zhì)可及性檢測技術(shù)ATAC-seq所獲得的測序數(shù)據(jù),其數(shù)據(jù)形式為BedGraph形式,包含每一開放區(qū)域的坐標(biāo)信息與開放程度值,具體表示為“chrom,chromStart,chromEnd,value”,即每一區(qū)域?yàn)樗谌旧w、區(qū)域起始坐標(biāo)、區(qū)域結(jié)束坐標(biāo)及開放程度值構(gòu)成的四元組;將所有未在原始文件中出現(xiàn)的基因組區(qū)域條目添加到文件中,并將上述添加條目的開放程度值賦值為0,得到以BedGraph形式文件呈現(xiàn)的全基因組染色質(zhì)開放程度信息;
所述細(xì)胞特異的DNA甲基化數(shù)據(jù)的分析方法如下:處理對應(yīng)細(xì)胞的由DNA甲基化檢測技術(shù)WGBS-seq所獲得的測序數(shù)據(jù),其數(shù)據(jù)形式以BedGraph形式保存,包含每一高甲基化區(qū)域的坐標(biāo)信息與甲基化程度值,具體表示為“chrom,chromStart,chromEnd,value”,即每一區(qū)域?yàn)樗谌旧w、區(qū)域起始坐標(biāo)、區(qū)域結(jié)束坐標(biāo)及開放程度值構(gòu)成的四元組;將所有未在原始文件中出現(xiàn)的基因組區(qū)域,條目添加到文件中,并將上述添加條目的甲基化程度值賦值為0,得到以BedGraph形式文件呈現(xiàn)的全基因組染色質(zhì)甲基化程度信息;
(4)建立G4-DNA序列細(xì)胞特異性染色質(zhì)環(huán)境特征向量:選定每一G4-DNA條目坐標(biāo)中點(diǎn)為中心,向上游、下游分別擴(kuò)展,最終構(gòu)成定長區(qū)域,作為對應(yīng)每個(gè)G4-DNA條目的染色體環(huán)境背景考察區(qū)域,采用滑窗法計(jì)算區(qū)域均值的方法壓縮數(shù)據(jù)特征;
所述的滑窗法的計(jì)算方法如下:
采用一定長滑窗對區(qū)域以一定步長進(jìn)行掃描,每步均計(jì)算窗口內(nèi)染色體開放程度值/甲基化程度值的平均值,作為該滑窗包含區(qū)域的染色體環(huán)境背景數(shù)值;
若按照缺省值計(jì)算,最終將得到一個(gè)20維的染色體開放程度數(shù)值序列和一個(gè)20維的甲基化程度數(shù)值序列;
對于每一條G4-DNA序列,都可以得到一組這樣的數(shù)值特征條目,每一條目均由維度為(1,40)的浮點(diǎn)數(shù)特征向量表示:(o1,o2,…o20, m1,m2,…m20),其中oi和mi分別表示滑窗第i步掃描區(qū)域內(nèi)染色質(zhì)開放程度區(qū)域均值及甲基化程度區(qū)域均值;
(5)建立細(xì)胞特異性的G4-DNA訓(xùn)練樣本集合:潛在的G4-DNA如果在特定細(xì)胞中形成真正的G4-DNA,那么該G4-DNA就是這個(gè)細(xì)胞的正樣本;相反,如果一個(gè)潛在的G4-DNA在特定細(xì)胞中不形成G4-DNA,則是一個(gè)負(fù)樣本;
(6)建立細(xì)胞特異性的G4-DNA預(yù)測分類器模型:所述分類器模型以潛在的G4-DNA的染色質(zhì)環(huán)境特征向量為輸入,判斷其是否會在特定細(xì)胞環(huán)境中形成G4-DNA;記 TP, TN, FP,FN 分別為真陽性樣本、真陰性樣本、假陽性樣本及假陰性樣本數(shù)目,得到三個(gè)指標(biāo)表示如下:
其中,Accuracy、Precision和Recall分別指準(zhǔn)確率、查準(zhǔn)率和查全率;
在步驟(5)得到的細(xì)胞特異性的G4-DNA訓(xùn)練樣本集合上進(jìn)行五折交叉驗(yàn)證:即將細(xì)胞特異性的G4-DNA訓(xùn)練樣本集合隨機(jī)分成五等份,每次訓(xùn)練取其中四份為訓(xùn)練集,余下一份為測試集進(jìn)行五次驗(yàn)證,計(jì)算與評估評價(jià)指標(biāo);交叉驗(yàn)證后,利用完整訓(xùn)練集對Xgboost模型進(jìn)行訓(xùn)練,并在完整測試集上進(jìn)行測試,評估評價(jià)指標(biāo),最終得到細(xì)胞特異性的G4-DNA預(yù)測分類器模型;
(7)細(xì)胞特異性G4-DNA預(yù)測:對于一種需要預(yù)測的細(xì)胞,以集合
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于東南大學(xué),未經(jīng)東南大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110030502.9/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種高效免疫活性細(xì)胞群制備及用于抗腫瘤的方法
- 獲得和使用內(nèi)胚層和肝細(xì)胞的組合物和方法
- bumetanide在抑制腫瘤細(xì)胞增殖中的應(yīng)用
- 細(xì)胞陣列計(jì)算系統(tǒng)以及其中細(xì)胞之間的通信方法
- 細(xì)胞陣列計(jì)算系統(tǒng)以及其中細(xì)胞間群發(fā)通信方法
- 獲得和使用內(nèi)胚層和肝細(xì)胞的組合物和方法
- 用于自動生成遺傳修飾的T細(xì)胞的方法
- 細(xì)胞核圖像輪廓捕獲設(shè)備及其方法
- 細(xì)胞結(jié)構(gòu)體及細(xì)胞結(jié)構(gòu)體的制造方法
- 一種懸浮細(xì)胞培養(yǎng)中去除死細(xì)胞的方法
- 抗家畜和水產(chǎn)病原體的特異性IgY或復(fù)合IgY及其應(yīng)用
- 用于檢測多特異性結(jié)合物的結(jié)合搭檔的方法
- 雙特異性抗-半抗原/抗-血腦屏障受體的抗體、其復(fù)合物及它們作為血腦屏障穿梭物的應(yīng)用
- 抗CD3抗體、可活化抗CD3抗體、多特異性抗CD3抗體、多特異性可活化抗CD3抗體及其使用方法
- 抗體調(diào)控的雙抗原特異性T細(xì)胞及其制備方法和應(yīng)用
- 用于檢測多特異性結(jié)合物的結(jié)合搭檔的方法
- 用于LAMP擴(kuò)增以檢測HPV和分型的引物組合、試劑盒和方法
- 雙特異性抗-半抗原/抗-血腦屏障受體的抗體、其復(fù)合物及其作為血腦屏障穿梭物的應(yīng)用
- 與TfR結(jié)合的雙特異性抗體
- 抗原特異性TCR數(shù)據(jù)庫的建立方法及抗原特異性TCR的評估方法





