[發(fā)明專利]一種宏基因組重疊群的無(wú)監(jiān)督分類方法有效
| 申請(qǐng)?zhí)枺?/td> | 201611201966.7 | 申請(qǐng)日: | 2016-12-23 |
| 公開(公告)號(hào): | CN106599618B | 公開(公告)日: | 2021-07-23 |
| 發(fā)明(設(shè)計(jì))人: | 劉云;劉富;侯濤;康冰;王柯;姜守坤;王婧媛 | 申請(qǐng)(專利權(quán))人: | 吉林大學(xué) |
| 主分類號(hào): | G16B40/20 | 分類號(hào): | G16B40/20 |
| 代理公司: | 吉林長(zhǎng)春新紀(jì)元專利代理有限責(zé)任公司 22100 | 代理人: | 白冬冬 |
| 地址: | 130012 吉*** | 國(guó)省代碼: | 吉林;22 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 宏基 重疊 監(jiān)督 分類 方法 | ||
一種宏基因組重疊群的無(wú)監(jiān)督分類方法,屬于生物信息學(xué)分析技術(shù)領(lǐng)域。本發(fā)明的目的是通過對(duì)c?harmonic均值算法進(jìn)行改進(jìn)后對(duì)宏基因組重疊群進(jìn)行無(wú)監(jiān)督分類的方法。本發(fā)明的步驟是重疊群數(shù)據(jù)的獲取;特征向量的建立;通過考慮各個(gè)類的體量構(gòu)建了代價(jià)函數(shù);根據(jù)聚類中心計(jì)算公式計(jì)算聚類中心;利用隸屬度矩陣公式更新隸屬度矩陣。本發(fā)明提出的改進(jìn)的模糊c?harmonic均值算法能夠有效地改善傳統(tǒng)方法對(duì)于不平衡數(shù)據(jù)集效果不理想的缺點(diǎn),將其應(yīng)用到重疊群的無(wú)監(jiān)督分類中可以提高分類精度,為宏基因組中物種多樣性的分析提供更好的基礎(chǔ)。
技術(shù)領(lǐng)域
本發(fā)明屬于生物信息學(xué)分析技術(shù)領(lǐng)域。
背景技術(shù)
與傳統(tǒng)的基因組學(xué)研究相比,宏基因組學(xué)技術(shù)的優(yōu)點(diǎn)在于無(wú)需經(jīng)過實(shí)驗(yàn)室培養(yǎng)而能夠獲得環(huán)境中絕大部分的遺傳物質(zhì),這樣就可以分析環(huán)境中物種之間以及物種與環(huán)境之間的關(guān)系。然而,宏基因組原始數(shù)據(jù)是大量的、長(zhǎng)度很短的的DNA片段(reads)。研究人員可以根據(jù)DNA片段之間的重疊關(guān)系將其組裝成長(zhǎng)度較長(zhǎng)的DNA序列,生物信息學(xué)中稱之為重疊群(contigs)。將這些重疊群按照其物種歸屬進(jìn)行分類是分析宏基因組中物種多樣性的基礎(chǔ)。
然而,由于物種間的不同基因組長(zhǎng)度以及物種間的不同豐度,在宏基因組數(shù)據(jù)中,不同物種所包含的重疊群的數(shù)量往往相差很大。因此,宏基因組重疊群數(shù)據(jù)是一種典型的不平衡數(shù)據(jù)集。如何這種數(shù)據(jù)集進(jìn)行有效地分類,是目前的一個(gè)難題。
模糊c-harmonic均值算法是一種常用的無(wú)監(jiān)督分類方法,其在模糊c均值算法的代價(jià)函數(shù)中使用了調(diào)和平均數(shù),使得其具有對(duì)處置不敏感的優(yōu)點(diǎn)。然而,該方法對(duì)不平衡數(shù)據(jù)的聚類效果較差。基于此,本發(fā)明提出了一種基于改進(jìn)的模糊c-harmonic均值算法的宏基因組重疊群的無(wú)監(jiān)督分類方法。
發(fā)明內(nèi)容
本發(fā)明的目的是通過對(duì)c-harmonic均值算法進(jìn)行改進(jìn)后對(duì)宏基因組重疊群進(jìn)行無(wú)監(jiān)督分類的方法。
本發(fā)明的步驟是:
①重疊群數(shù)據(jù)的獲取;
②特征向量的建立;
③通過考慮各個(gè)類的體量構(gòu)建了代價(jià)函數(shù),定義為:
其中fj為第j個(gè)類的體量,定義為所有樣本屬于該類的隸屬度值之和:
滿足
一、隸屬度矩陣urs,r=1,2,...,N,s=1,2,...,c的求解過程為:
①根據(jù)約束條件構(gòu)造拉格朗日函數(shù):
②求J對(duì)于urs的偏導(dǎo)數(shù):
③令可得:
④根據(jù)約束條件可得:
⑤可求得:
⑥將λr的計(jì)算公式帶入到公式(5)中,可得:
二、聚類中心θj,j=1,...,c的推導(dǎo)過程為:
①求JNEW對(duì)于θj的偏導(dǎo)數(shù):
②采用歐式距離,因此dij=||xi-θj||,可得:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于吉林大學(xué),未經(jīng)吉林大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611201966.7/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- TD-SCDMA系統(tǒng)中實(shí)現(xiàn)接入點(diǎn)同步定時(shí)的方法
- 微基站和宏基站間數(shù)據(jù)幀調(diào)整方法、系統(tǒng)及微基站配置中心
- 信道狀態(tài)指示測(cè)量方法
- 一種宏基站和家庭基站之間頻譜交換的方法和LTE系統(tǒng)
- 一種基于認(rèn)知技術(shù)的異構(gòu)網(wǎng)絡(luò)節(jié)能方法
- 一種基于LTE的家庭基站的接納控制方法
- 一種異構(gòu)蜂窩網(wǎng)下的切換方法
- 一種小基站及其通信控制方法
- 在宏基站之間進(jìn)行虛擬小區(qū)切換的方法和設(shè)備
- 化妝品檢測(cè)信息傳輸方法及傳輸系統(tǒng)
- 在即時(shí)通信中提供即時(shí)監(jiān)督功能的方法及系統(tǒng)
- 一種監(jiān)督事件的生成裝置
- 一種資產(chǎn)托管監(jiān)督任務(wù)的處理方法及裝置
- 一種監(jiān)督方法及裝置
- 基于自監(jiān)督學(xué)習(xí)的標(biāo)簽比例學(xué)習(xí)模型的訓(xùn)練方法和設(shè)備
- 一種衛(wèi)生監(jiān)督對(duì)象尋址方法、電子設(shè)備及存儲(chǔ)介質(zhì)
- 一種機(jī)器人表情調(diào)用方法和家用機(jī)器人
- 計(jì)算機(jī)視覺訓(xùn)練系統(tǒng)和用于訓(xùn)練計(jì)算機(jī)視覺系統(tǒng)的方法
- 一種基于廠區(qū)智能管理系統(tǒng)的工廠設(shè)備監(jiān)督系統(tǒng)
- 信息化綜合監(jiān)督系統(tǒng)及方法





