[發明專利]一種隨機森林算法結合模群種群的數據變量選擇方法在審
| 申請號: | 202010716827.8 | 申請日: | 2020-07-23 |
| 公開(公告)號: | CN111898666A | 公開(公告)日: | 2020-11-06 |
| 發明(設計)人: | 楊雯懿;黃建華 | 申請(專利權)人: | 中南大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06N3/00 |
| 代理公司: | 重慶天成卓越專利代理事務所(普通合伙) 50240 | 代理人: | 譚春艷 |
| 地址: | 410083*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 隨機 森林 算法 結合 種群 數據 變量 選擇 方法 | ||
本發明公開了一種隨機森林算法結合模群種群的數據變量選擇方法,該方法包括:通過MonteCarlo采樣從原始數據集中提取出每個子模型的數據集;在選擇好數據集后,開始構建隨機森林子模型,選擇每個隨機森林中包含的分類回歸樹數目;每個子隨機森林模型將返回計算其變量的重要度;循環得到子模型的變量重要度后,取其均值作為最終的判斷依據,排列變量的重要度選擇最重要的變量;將準確率下降作為評估變量重要度的指標,計算每個變量的重要度;對分類模型所得結果進行評價;驗證方法的有效性。
技術領域
本發明涉及一種隨機森林算法結合模群種群的數據變量選擇方法。屬于生物信息學領域。
背景技術
隨著代謝組學技術的發展,從高通量分析方法得到的數據越來越復雜。因而,當前的研究已經從如何獲取代謝組學信息變為如何解析這些高通量信息了。變量選擇在代謝組學中是非常重要的,一方面特征選擇能幫助構建更好的模型,另一方面特征選擇能幫助進一步了解這些代謝組學數據,幫助分析數據模式,確定疾病的標記物。
交互檢驗的方法常用來解決數據不能劈分的問題,但是在實施過程中都將使用到全部數據集的信息,這樣在評估模型的時,對模型的判別錯誤率出現有偏的估計。因此,如何避免用于訓練的數據集不會被當作測試集是構建新的方法時需要考慮的;在變量選擇中的另一個問題就是變量重要度計算時的不穩定性,即在對同一數據進行多次運算時得到的結果常常不一致。如何得到一個相對更加穩定的結果也是構建新的變量選擇方法需要考慮到的。
發明內容
本發明結合隨機森林算法和模群種群分析,提出了一種特征選擇方法。為了達到上述目的,本發明的技術解決方案如下:
(1)通過Monte Carlo采樣從原始數據集中提取出每個子模型的數據集。
(2)在選擇好數據集后,開始構建隨機森林子模型,選擇每個隨機森林中包含的分類回歸樹數目。
(3)每個子隨機森林模型將返回計算其變量的重要度。
(4)循環得到子模型的變量重要度后,取其均值作為最終的判斷依據,排列變量的重要度選擇最重要的變量。
(5)將準確率下降作為評估變量重要度的指標,計算每個變量的重要度。
(6)對分類模型所得結果進行評價。
(7)驗證方法的有效性。
有益效果:已知增加子模型之間的多樣性能有效提高隨機森林算法的精度,而使用模群種群分析能夠有效提高各子模型間的不相似度且沒有相關性,因為每次用來建模的數據集都是隨機抽取的;當單次適用隨機森林算法計算變量的重要度時,每個變量的重要度常常被計算出不同的重要度,這是由每次構建的樹結構完全不相同導致的。當使用進行變量計算時,取多次運算結果的均值,因而使得到的結果更加穩定。
附圖說明
圖1為本發明總體流程圖。
具體實施方式
(1)從原始數據中提取80%作為每個隨機森林建模數據。
(2)在選擇好數據集后,在一個隨機森林程序里構建2000棵樹,然后將其沒有被用來訓練的數據(OOB)錯誤率與構建的樹數量作圖,三個數據集的錯誤率都到達相對的最低,且趨近平滑所對應的樹數量,選擇每個隨機森林中包含的分類回歸樹數目為500,即在一個隨機子模型中由500棵樹集成而得。
(3)循環1000次,得到1000個子模型的變量重要度后,取其均值作為最終的判斷依據,排列變量的重要度選擇最重要的變量。
(4)分別采用準確率、靈敏度、特異度、精密度以及相關系數對分類模型所得結果進行評價。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中南大學,未經中南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010716827.8/2.html,轉載請聲明來源鉆瓜專利網。





