[發(fā)明專利]一種基于生物序列的負(fù)序列模式的相似性分析方法、實(shí)現(xiàn)系統(tǒng)及介質(zhì)有效
| 申請(qǐng)?zhí)枺?/td> | 202011022788.8 | 申請(qǐng)日: | 2020-09-25 |
| 公開(公告)號(hào): | CN112182497B | 公開(公告)日: | 2021-04-27 |
| 發(fā)明(設(shè)計(jì))人: | 董祥軍;蘆月 | 申請(qǐng)(專利權(quán))人: | 齊魯工業(yè)大學(xué) |
| 主分類號(hào): | G06F17/16 | 分類號(hào): | G06F17/16;G16B30/10;G16B45/00;G16B50/00 |
| 代理公司: | 濟(jì)南金迪知識(shí)產(chǎn)權(quán)代理有限公司 37219 | 代理人: | 許德山 |
| 地址: | 250353 山東*** | 國(guó)省代碼: | 山東;37 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 生物 序列 模式 相似性 分析 方法 實(shí)現(xiàn) 系統(tǒng) 介質(zhì) | ||
本發(fā)明涉及一種基于生物序列的負(fù)序列模式的相似性分析方法、實(shí)現(xiàn)系統(tǒng)及介質(zhì),包括:(1)數(shù)據(jù)預(yù)處理:將DNA序列中的字母用數(shù)字來(lái)表示;并分割成若干個(gè)塊,得到的若干個(gè)塊作為頻繁模式挖掘的數(shù)據(jù)集;(2)頻繁模式挖掘:使用f?NSP算法來(lái)挖掘數(shù)據(jù)集;(3)對(duì)最大頻繁正、負(fù)序列模式進(jìn)行圖形表示;把最大頻繁正、負(fù)序列模式轉(zhuǎn)化為數(shù)字序列;(4)DNA序列的相似性分析:求取不同DNA序列的相似度,選取相似度最小的對(duì)應(yīng)的DNA序列為待研究的DNA序列。本發(fā)明可以有效地對(duì)負(fù)序列進(jìn)行有效的表達(dá)和分析,并且通過(guò)選取不同的最大頻繁模式組合,能夠得到不同的分析結(jié)果,大大節(jié)省了計(jì)算機(jī)的內(nèi)存和時(shí)間的消耗。
技術(shù)領(lǐng)域
本發(fā)明涉及一種基于生物序列的負(fù)序列模式的相似性分析方法、實(shí)現(xiàn)系統(tǒng)及介質(zhì),屬于可決策的高效用負(fù)序列規(guī)則的應(yīng)用技術(shù)領(lǐng)域。
背景技術(shù)
近年來(lái),我們獲得了海量的生物序列數(shù)據(jù),隨著DNA及蛋白質(zhì)測(cè)序技術(shù)的進(jìn)步,對(duì)解讀生物序列數(shù)據(jù)中所含的各種信息,尤其是DNA序列中的遺傳及調(diào)控信息、蛋白質(zhì)序列結(jié)構(gòu)與功能的關(guān)系的數(shù)據(jù)分析工具的需求增加,序列相似性分析得到廣泛的應(yīng)用。每當(dāng)我們獲得一個(gè)新的DNA序列的時(shí)候,希望通過(guò)相似性分析來(lái)證明它與某些已知的序列相似,如果和已知的序列具有同源性的話,會(huì)大大節(jié)省重新測(cè)定新序列的功能的時(shí)間和精力,而生物序列龐大,這就顯得尤為重要了。在生物序列分析中,序列模式挖掘算法有助于識(shí)別同時(shí)發(fā)生的生物序列和發(fā)現(xiàn)DNA或蛋白質(zhì)序列中的關(guān)系,因此研究缺失的堿基對(duì)序列比單一的去挖掘頻繁的序列模式具有更高的意義。在生物信息學(xué)研究中,生物序列的相似性分析絕非簡(jiǎn)單機(jī)械的比較,而必然是多種多樣的,同時(shí)還需要運(yùn)用許多數(shù)學(xué)和統(tǒng)計(jì)學(xué)方法進(jìn)行輔助分析與評(píng)判。序列相似性分析中,比對(duì)是最常用和最經(jīng)典的研究手段。從生物序列的層次分析序列的相似性,推測(cè)其結(jié)構(gòu)功能及進(jìn)化上的聯(lián)系是基因識(shí)別、分子進(jìn)化、生命起源研究的基礎(chǔ),然而,在進(jìn)行序列比對(duì)時(shí)有兩方面的問題直接影響相似性分值:取代矩陣和空值罰分,粗糙的比對(duì)方法僅適用相同或不同來(lái)描述兩個(gè)堿基的關(guān)系。生物序列的相似性分析用于提取儲(chǔ)存在蛋白質(zhì)序列中的信息,為此提出了許多數(shù)學(xué)方案。生物序列的圖形表示可以識(shí)別任何序列的信息內(nèi)容,以幫助生物學(xué)家選擇另一種復(fù)雜的理論或?qū)嶒?yàn)方法。圖形表示不僅提供了基因數(shù)據(jù)的可視化定性檢查,而且還通過(guò)矩陣等對(duì)象提供了數(shù)學(xué)描述。大部分的數(shù)學(xué)方案是基于2-D和3-D表示的。
關(guān)于序列模式挖掘,對(duì)于正序列模式(Positive Sequential Pattern,PSP)挖掘僅僅考慮了已經(jīng)發(fā)生了的事件(行為),不同于傳統(tǒng)序列模式挖掘的思路,負(fù)序列模式挖掘(Negative Sequential Pattern, NSP)還考慮了未發(fā)生的事件(行為),也就是不存在于序列中的項(xiàng),這樣可以為人類提供更加全面地決策信息,比如,校園中存在的各種現(xiàn)狀對(duì)學(xué)生的學(xué)習(xí)和生活產(chǎn)生的不同程度的影響;涉嫌醫(yī)療欺詐行為的參保人消除不良購(gòu)藥記錄;缺失的基因片段可能誘發(fā)潛在的疾病等,但是,它們往往容易被人類所忽視,因此,越來(lái)越受到從事數(shù)據(jù)挖掘工作人員的關(guān)注。尤其是在生物序列分析中,序列模式挖掘算法有助于識(shí)別同時(shí)發(fā)生的生物序列和發(fā)現(xiàn)DNA或蛋白質(zhì)序列中的關(guān)系,因此,研究缺失的堿基對(duì)序列比單一的去挖掘頻繁的序列模式具有更高的意義。生物數(shù)據(jù)分析或生物數(shù)據(jù)挖掘存在一些重要的問題,如尋找共現(xiàn)的生物序列,對(duì)生物序列進(jìn)行有效分類、對(duì)生物序列進(jìn)行聚類分析等。而序列模式挖掘算法有助于識(shí)別同時(shí)發(fā)生的生物序列和發(fā)現(xiàn)DNA或蛋白質(zhì)序列中的關(guān)系。生物序列數(shù)據(jù)往往包含著大量有價(jià)值的生物信息,例如,生物序列中頻繁出現(xiàn)的基因和蛋白質(zhì)片段往往含有許多未知的信息,挖掘這些信息具有重要的意義;某些細(xì)菌對(duì)人體的攻擊受其基因中某些片段的影響;一些數(shù)目可變的串聯(lián)重復(fù)序列的極度擴(kuò)張可能會(huì)導(dǎo)致相關(guān)神經(jīng)系統(tǒng)方面疾病。此外, DNA序列中的頻繁模式的發(fā)現(xiàn)將是解釋生物遺傳特性的一種有效方法,這些頻繁模式往往作為生物序列隱含數(shù)據(jù)的可能趨勢(shì)和某些事件的相關(guān)標(biāo)記。所以,在蛋白質(zhì)或DNA等生物序列中頻繁模式的挖掘具有重要價(jià)值。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于齊魯工業(yè)大學(xué),未經(jīng)齊魯工業(yè)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011022788.8/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)





