[發明專利]一種二項樹模型的模體搜索方法、裝置、設備與存儲介質有效
| 申請號: | 201910181483.2 | 申請日: | 2019-03-11 |
| 公開(公告)號: | CN110070908B | 公開(公告)日: | 2021-08-13 |
| 發明(設計)人: | 于強;張曉 | 申請(專利權)人: | 西安電子科技大學 |
| 主分類號: | G16B10/00 | 分類號: | G16B10/00;G16B20/00 |
| 代理公司: | 西安嘉思特知識產權代理事務所(普通合伙) 61230 | 代理人: | 張捷 |
| 地址: | 710071*** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 二項樹 模型 搜索 方法 裝置 設備 存儲 介質 | ||
本發明涉及一種二項樹模型的模體搜索方法、裝置、設備與存儲介質,該方法包括:獲取DNA序列大數據集、獲取所述DNA序列大數據集的植入模體參數;根據所述DNA序列大數據集、所述植入模體參數,得到第一l?mer集;根據所述第一l?mer集,構建二項樹模型;根據第一得分模型,從所述二項樹模型中確定所述植入模體。本發明通過構建二項樹模型的方法,不僅能夠從DNA序列大數據集中搜索出了植入模體,同時在找出植入模體的運行時間數量級地快速于其它植入模體搜索方法。
技術領域
本發明屬于DNA序列大數據處理領域,具體涉及一種二項樹模型的模體搜索方法、裝置、設備與存儲介質。
背景技術
DNA是遺傳信息的載體,遺傳信息存儲在DNA四種字符組成的序列中,生物體的生長發育本質就是遺傳信息的傳遞和表達。作為遺傳信息表達的第一步,轉錄是調控機制的中心。轉錄因子結合在DNA序列中的特定位點(長度約為5~20個堿基對),啟動基因的轉錄和控制基因的轉錄效率。這些位點稱為轉錄因子結合位點(Transcription FactorBinding Sites,簡稱TFBS),定位TFBS對研究基因的轉錄調控有著重要意義。
Quorum植入模體搜索(Quorum Protein Motifs Sequences,簡稱qPMS)是用于在DNA序列中定位TFBS的著名計算模型之一。常見的qPMS方法包括樣本模式驅動的精確方法和后綴樹的精確方法,其中,基于樣本模式驅動的精確方法,例如PMSprune、StemFinder、qPMS7、TravStrR、PMS8和qPMS9,包含樣本驅動和模式驅動兩個階段,樣本驅動階段是用選取一些參考DNA序列作為約束來生成盡可能少的候選模體,模式驅動階段是對候選模體進行驗證;基于后綴樹的精確方法,例如Weeder,RISOTTO和FMotif,建立輸入序列的后綴樹索引來加速候選模體的驗證。近似qPMS方法的目標是在較短的時間內找出最優或接近最優的模體,最典型的近似qPMS方法包括期望最大化、Gibbs采樣和遺傳方法等,對初始模體進行求精,在這些方法中,基于期望最大化的方法MEME-ChIP是最有名的模體發現方法之一。為了高效處理大數據集,又提出了一些基于新策略的模體發現方法,比如PairMotifChIP方法,PairMotifChIP方法是從輸入的DNA序列中挖掘和合并相似的子串對來得出模體。
然而,qPMS方法和近似qPMS方法、PairMotifChIP方法存在共同的問題:計算問題,導致運行時間太長,在處理DNA序列大數據集時存在著瓶頸。
發明內容
為了解決現有技術中存在的上述問題,本發明提供了一種二項樹模型的模體搜索方法、裝置、設備與存儲介質。
本發明實施例提供了一種二項樹模型的模體搜索方法,該方法包括:
獲取DNA序列大數據集、獲取所述DNA序列大數據集的植入模體參數;
根據所述DNA序列大數據集、所述植入模體參數,得到第一l-mer集;
根據所述第一l-mer集,構建二項樹模型;
根據第一得分模型,從所述二項樹模型中確定所述植入模體。
在本發明的一個實施例中,根據所述DNA序列大數據集、所述植入模體參數,得到第一l-mer集,包括:
根據所述DNA序列大數據集、所述植入模體參數,得到第一k-mer集;
根據所述第一k-mer集,得到所述第一l-mer集,其中,所述第一l-mer集包括若干第一l-mer。
在本發明的一個實施例中,根據所述第一l-mer集,構建二項樹模型,包括:
選取第一l-mer集中的第一l-mer作為第一二項樹的根結點,依次根據第一二項樹的第i層生成第一二項樹的第i+1層,其中,0id;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西安電子科技大學,未經西安電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910181483.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種物理降溫裝置
- 下一篇:一種基于深度學習的融合多特征的蛋白質功能預測方法





