[發明專利]分布式列子集選擇方法、系統及白血病基因信息挖掘方法在審
| 申請號: | 202110350013.1 | 申請日: | 2021-03-31 |
| 公開(公告)號: | CN113077843A | 公開(公告)日: | 2021-07-06 |
| 發明(設計)人: | 肖正;魏鵬程 | 申請(專利權)人: | 湖南大學;邵東智能制造技術研究院有限公司 |
| 主分類號: | G16B35/20 | 分類號: | G16B35/20;G16B40/00;G16H50/70 |
| 代理公司: | 長沙永星專利商標事務所(普通合伙) 43001 | 代理人: | 周詠;米中業 |
| 地址: | 410082 湖*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 分布式 子集 選擇 方法 系統 白血病 基因 信息 挖掘 | ||
1.一種面向列子集選擇的分布式列子集選擇方法,包括如下步驟:
S1.獲取數據集中全部的特征;
S2.對步驟S1獲取的數據集中的特征進行處理,然后均勻分組到各計算節點;
S3.在每臺計算節點上執行子集質量評估方法,從而計算得到對應的特征子集目標特征數;
S4.根據步驟S3得到的各個計算節點的特征子集目標特征數,每臺計算節點進行各自的特征選擇計算,從而得到每臺計算節點所選擇得到的特征;
S5.匯總步驟S4得到的各計算節點的特征選擇計算結果,從而得到最終選擇到的特征。
2.根據權利要求1所述的分布式列子集選擇方法,其特征在于步驟S2包括:首先將數據集中數據轉化為一個由特征和特征取值組成的二維矩陣,然后將特征取值全為空以及特征取值方差為0的特征刪除,接著利用L2范數對剩余特征進行歸一化處理,最后根據集群中的計算節點數量建立分組標簽,為每一個特征隨機分配標簽,從而將每一個特征隨機劃分到不同的計算節點的特征子集。
3.根據權利要求2所述的分布式列子集選擇方法,其特征在于對每個特征F的L2范數歸一化的計算公式如下:
其中,fv1,fv2,…,fvn是特征F可能取得的特征值;||F||2表示特征F的L2范數。
4.根據權利要求3所述的分布式列子集選擇方法,其特征在于步驟S3所述的子集質量評估方法,具體為使用信息熵衡量特征子集Vi的子集質量SQi;特征信息熵H(F)用于衡量一個特征F所蘊含信息量的大小,信息熵H(F)越高表示該特征F蘊含的信息量越大,定義特征集合熵:
其中,Ni為特征子集Vi所含特征數目,fvt是特征Fj所有可能取得的特征值,p(fvt)=Pr(Fj=fvt)是概率質量函數;子集質量SQi的值越大,表示特征子集Vi含有的信息量越大,越多的最優特征分布在特征子集Vi中,因此特征數目ki越大。
5.根據權利要求4所述的分布式列子集選擇方法,其特征在于步驟S4所述的根據步驟S3得到的各個計算節點的特征子集目標特征數,每臺計算節點進行各自的特征選擇計算,具體為,質量越高,特征數目ki越大;為了保證質量更高的特征子集Vi能分配到更大的特征數目ki,將各子集的子集質量SQi降序排列,計算降序排列的前m-1個子集的特征數目ki,m為集群中計算節點的數量;
其中,1≤i≤m-1,[·]表示向上取整,k為目標特征總數;
得到前m-1個子集的特征數目ki后,降序排列的最后一個子集的特征數目ki,記為
6.根據權利要求5所述的分布式列子集選擇方法,其特征在于步驟S4所述的每臺計算節點進行各自的特征選擇計算,具體每臺計算節點采用POCSS算法進行各自的特征選擇計算。
7.一種基于權利要求1~6之一所述的分布式列子集選擇方法的系統,其特征在于包括獲取模塊、預處理模塊、評估模塊、選擇模塊和輸出模塊;獲取模塊、預處理模塊、評估模塊、選擇模塊和輸出模塊依次串聯;獲取模塊用于獲取數據集中全部的特征;預處理模塊用于預處理原始數據集,并負責特征的清洗和歸一化處理,根據集群中計算節點數量為處理后的特征集均勻隨機分配分組標簽,并為下一模塊的計算做輸入準備;評估模塊用于為各特征子集進行子集質量評估,根據各子集質量為該子集找到目標特征數目;選擇模塊用于根據特征子集以及目標特征數目,采用采用POCSS算法在各計算節點上計算,然后匯總各節點的計算結果得到最終選擇到的特征;輸出模塊用于輸出特征選擇結果。
8.一種基于權利要求1~7之一所述的分布式列子集選擇方法和系統的白血病基因挖掘方法,其特征在于包括如下步驟:
B1.給定一個總特征選擇數目k;
B2.通過獲取模塊將基因數據集讀入并轉化為一個由樣本和特征組成的二維矩陣A=(樣本數量,特征數量);
B3.通過預處理模塊將步驟B2得到矩陣進行特征清洗和歸一化處理;
B4.將步驟B3清理后數據根據集群中節點數量,形成基因子集Vi分發到各個節點;
B5.通過評估模塊,各節點利用子集質量評估算法計算所分配基因子集的質量SQi;
B6.根據各子集的質量和總目標特征數計算出每個子集應選的特征數ki;
B7.根據ki執行POCSS算法,在每個基因子集中選擇出ki個特征;
B8.匯總各節點的選擇結果,從而得到最終k個與白血病最具相關性的基因表達。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于湖南大學;邵東智能制造技術研究院有限公司,未經湖南大學;邵東智能制造技術研究院有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110350013.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種經皮椎弓根的病變椎體內植骨器械
- 下一篇:一種氫燃料電池浸水測試試驗裝置





