[發明專利]基于圖神經網絡與譜聚類的高維數據特征選擇方法有效
| 申請號: | 202011108087.6 | 申請日: | 2020-10-16 |
| 公開(公告)號: | CN112232413B | 公開(公告)日: | 2023-07-21 |
| 發明(設計)人: | 栗偉;謝維冬;王林潔;覃文軍;馮朝路;閔新;于鯤 | 申請(專利權)人: | 東北大學 |
| 主分類號: | G06F18/2113 | 分類號: | G06F18/2113;G06F18/23213;G06F18/2411;G06N3/048;G06N3/084;G16B40/00 |
| 代理公司: | 沈陽東大知識產權代理有限公司 21109 | 代理人: | 李在川 |
| 地址: | 110819 遼寧*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 神經網絡 譜聚類 數據 特征 選擇 方法 | ||
本發明提供一種基于圖神經網絡與譜聚類的高維數據特征選擇方法。首先將每個基因作為節點建立基因關系圖結構模型,并將基因相互關系數據作為邊信息添加到基因關系圖中,然后利用圖神經網絡模型來獲取節點的特征向量表示,在得到每個節點的特征向量表示之后,開始進行鏈接預測階段,生成新的邊,得到新的基因關系圖,最后基于譜聚類在新的基因關系圖中選擇權重最高的節點作為特征節點,通過本發明最終選擇的基因具有較小的冗余度同時實現了較好的模型效果,并支持生物角度的可解釋性。
技術領域
本發明涉及機器學習技術領域,具體涉及一種基于圖神經網絡與譜聚類的高維數據特征選擇方法。
背景技術
在生物信息學領域中,處理的對象大多是多特征、高噪聲、非線性的數據集。例如,研究人員利用基因芯片可以在一次實驗中同時檢測出成千上萬個基因的表達值,從而獲得大量的基因表達數據;還可以利用蛋白質質譜技術一次產出大量的蛋白質表達譜數據。但由于這些數據具有維數高、樣本個數少的特點,常規的模式識別方法已不再適用。針對此類數據,如何剔除冗余特征、從海量數據中挖掘出隱藏的有用生物信息,成為研究識別與分類問題的關鍵。
在樣本個數有限的情況下,隨著特征數目的增加,分類問題的計算復雜度將呈指數增長,從而出現“維數災難”。而特征選擇方法可以達到以下四個目的:
①確定哪些是與輸出相關的特征;
②降低輸入空間的維數,縮小求解問題的規模,從而降低算法復雜度,減少訓練時間;
③得到更好的決策函數,提高分類準確率;
④對數據的內在屬性產生更深刻的認識。
特征選擇是指對原始特征空間進行篩選,構造出一個特征空間的特征子空間,有效的特征選擇可以提高學習算法的泛化性能,簡化學習模型;以分類問題為背景,根據特征評價標準,傳統的特征選擇方法主要分為過濾法(Filter)和纏繞法(Wrapper)及嵌入式(Embedded)。除上述經典方法外,主流的改進方法是將經典方法進行優化、組合和進一步嵌入。但是,這些算法普遍假設樣本間是相互獨立的,或僅僅考慮數據間的特征關系,局限于在有限樣本空間中尋找統計學層面的最佳解釋,側重了模型結果而忽略了生物學中僅因或蛋白之間的相互作用關系。
發明內容
針對現有技術的不足,本發明提出一種基于圖神經網絡與譜聚類的高維數據特征選擇方法,包括以下步驟:
步驟1:基于先驗知識構建基因關系圖,包括:
步驟1.1:利用GPL平臺,將待處理基因微陣列數據S中的每個特征的探針名轉換為對應的基因ID,其中待處理基因微陣列數據S表示為S={X1,X2,…,Xi,…,XN},第i個樣本Xi表示為每個樣本均對應一個標簽,表示第i個樣本Xi中的第j個特征值,每個特征均對應一個探針名,N表示待處理基因微陣列數據S中的樣本數,i=1,2,…,N,m表示每個樣本中的特征數,j=1,2,…,m;
步驟1.2:將所有的基因ID輸入到Cytoscape軟件的GeneMANIA插件中,利用邊緣關系數據Physical?Interaction生成所有基因ID之間的關系矩陣R,其中關系矩陣R中包含數據S中任意兩個基因ID之間的關系權重系數;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東北大學,未經東北大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011108087.6/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





