[發(fā)明專利]一種基于深度自動編碼器的基因表達(dá)數(shù)據(jù)聚類方法在審
| 申請?zhí)枺?/td> | 202210009917.2 | 申請日: | 2022-01-05 |
| 公開(公告)號: | CN114358191A | 公開(公告)日: | 2022-04-15 |
| 發(fā)明(設(shè)計)人: | 何瑤;舒坤賢 | 申請(專利權(quán))人: | 重慶郵電大學(xué) |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G16B40/30;G06N3/08 |
| 代理公司: | 重慶輝騰律師事務(wù)所 50215 | 代理人: | 王海軍 |
| 地址: | 400065 重*** | 國省代碼: | 重慶;50 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 深度 自動 編碼器 基因 表達(dá) 數(shù)據(jù) 方法 | ||
本發(fā)明屬于基因表達(dá)數(shù)據(jù)分析領(lǐng)域,具體涉及一種基于深度自動編碼器的基因表達(dá)數(shù)據(jù)聚類方法;該方法包括:獲取基因表達(dá)數(shù)據(jù);對基因表達(dá)數(shù)據(jù)進(jìn)行預(yù)處理,得到mRNA數(shù)據(jù);將mRNA數(shù)據(jù)輸入到訓(xùn)練好的深度自動編碼器中,得到降維后的mRNA數(shù)據(jù);采用mclust包確定降維后的mRNA數(shù)據(jù)的聚類簇數(shù);根據(jù)聚類簇數(shù),采用k?means聚類算法對降維后的mRNA數(shù)據(jù)進(jìn)行聚類,得到聚類結(jié)果;本發(fā)明采用mclust包確定聚類簇數(shù),避免了人為設(shè)置聚類簇數(shù)的局限性,聚類結(jié)果更準(zhǔn)確;將深度自動編碼器與聚類方法相結(jié)合,加快了聚類運算速度,且有效地提升了聚類的效果,具有良好的應(yīng)用前景。
技術(shù)領(lǐng)域
本發(fā)明屬于基因表達(dá)數(shù)據(jù)分析領(lǐng)域,具體涉及一種基于深度自動編碼器的基因表達(dá)數(shù)據(jù)聚類方法。
背景技術(shù)
隨著基因芯片檢測技術(shù)日趨成熟,產(chǎn)生了大量的基因表達(dá)數(shù)據(jù),人們可從公共數(shù)據(jù)集中獲取基因表達(dá)數(shù)據(jù)。利用數(shù)據(jù)挖掘方法挖掘基因表達(dá)數(shù)據(jù)重要信息,可從分子層面探討疾病的機(jī)理和生物標(biāo)志物。聚類分析是數(shù)據(jù)挖掘的重要技術(shù)之一,在基因表達(dá)數(shù)據(jù)研究中具有很重要的作用。基因表達(dá)數(shù)據(jù)的聚類分析研究可分為3類:基因聚類、樣本聚類和雙向聚類。其中,基因聚類以基因為對象,以樣本表達(dá)值為特征,能夠用于判斷差異基因在不同情況下的表達(dá)模式,將表達(dá)模式相同或相近的基因聚集,這些同類基因可能具有相似的功能,共同參與同一代謝過程或存在于同一細(xì)胞通路中。
基因聚類可將表達(dá)模式相近的基因聚在一起,以發(fā)現(xiàn)未知基因功能以及基因之間的調(diào)控關(guān)系。現(xiàn)有技術(shù)中有基于劃分的聚類算法、基于層次的聚類算法、基于密度的聚類算法以及基于圖的聚類算法等經(jīng)典的聚類算法,這些算法都存在著各自的優(yōu)缺點。目前,應(yīng)用較多的基因表達(dá)數(shù)據(jù)的基因聚類算法包括基于劃分的k-means、基于層次的凝聚層次和Birch、混合高斯模型(GMM)以及基于圖的譜聚類,也有一些研究針對聚類算法的缺點進(jìn)行改進(jìn)的用于基因表達(dá)數(shù)據(jù)的聚類算法,但幾乎都需指定聚類簇數(shù),因此使用的都是模擬數(shù)據(jù)集或已知聚類簇數(shù)的數(shù)據(jù)集。k-means是一種經(jīng)典的基于劃分的無監(jiān)督靜態(tài)聚類方法,相比凝集層次聚類算法更快速更簡單,且適用于多種數(shù)據(jù)集并有不錯的聚類效果,但也需要給定聚類簇數(shù),而現(xiàn)實中基因表達(dá)數(shù)據(jù)集基因聚類簇數(shù)往往是未知的,這成為了聚類分析的難點。R語言的mclust包專用于確定聚類簇數(shù),內(nèi)有14種算法用于選取聚類簇數(shù)。然而,將R語言的mclust包用于基因表達(dá)數(shù)據(jù)集基因聚類時卻常因基因表達(dá)數(shù)據(jù)集的維數(shù)高計算量大而不能得到結(jié)果。
綜上所述,亟需一種不需要給定聚類簇數(shù)且計算量較少的基因表達(dá)數(shù)據(jù)聚類方法。
發(fā)明內(nèi)容
針對現(xiàn)有技術(shù)存在的不足,本發(fā)明提出了一種基于深度自動編碼器的基因表達(dá)數(shù)據(jù)聚類方法,該方法包括:
S1:獲取基因表達(dá)數(shù)據(jù);
S2:對基因表達(dá)數(shù)據(jù)進(jìn)行預(yù)處理,得到mRNA數(shù)據(jù);
S3:將mRNA數(shù)據(jù)輸入到訓(xùn)練好的深度自動編碼器中,得到降維后的mRNA數(shù)據(jù);
S4:采用mclust包確定降維后的mRNA數(shù)據(jù)的聚類簇數(shù);
S5:根據(jù)聚類簇數(shù),采用k-means聚類算法對降維后的mRNA數(shù)據(jù)進(jìn)行聚類,得到聚類結(jié)果。
優(yōu)選的,對獲取的基因表達(dá)數(shù)據(jù)進(jìn)行預(yù)處理包括:從基因表達(dá)數(shù)據(jù)中提取mRNA數(shù)據(jù);對mRNA數(shù)據(jù)進(jìn)行基因ID轉(zhuǎn)換、缺失值處理和刪除重復(fù)基因,得到得到初步處理好的mRNA數(shù)據(jù);對初步處理好的mRNA數(shù)據(jù)進(jìn)行剔除過低表達(dá)量基因處理;使用方差穩(wěn)定變換對剔除過低表達(dá)量基因后的數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,得到預(yù)處理好的mRNA數(shù)據(jù)。
優(yōu)選的,對深度自動編碼器進(jìn)行訓(xùn)練包括:深度自動編碼器包括編碼器和解碼器;
S31:采用編碼器對輸入mRNA數(shù)據(jù)進(jìn)行特征學(xué)習(xí),得到降維后的mRNA數(shù)據(jù);
S32:采用解碼器對降維后的mRNA數(shù)據(jù)進(jìn)行重構(gòu),得到重構(gòu)的mRNA數(shù)據(jù);
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于重慶郵電大學(xué),未經(jīng)重慶郵電大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210009917.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種濾芯生產(chǎn)用的整形裝置
- 下一篇:淋浴控制系統(tǒng)
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個筆畫組成的,而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合





