[發明專利]基于骨干粒子群算法的基因數據特征選擇方法及裝置在審
| 申請號: | 202110858994.0 | 申請日: | 2021-07-28 |
| 公開(公告)號: | CN113571134A | 公開(公告)日: | 2021-10-29 |
| 發明(設計)人: | 許鎮義;潘凱;程凡;康宇;曹洋 | 申請(專利權)人: | 合肥綜合性國家科學中心人工智能研究院(安徽省人工智能實驗室) |
| 主分類號: | G16B35/20 | 分類號: | G16B35/20;G16B40/00;G06K9/62;G06N3/12 |
| 代理公司: | 合肥天明專利事務所(普通合伙) 34115 | 代理人: | 苗娟 |
| 地址: | 230000 安徽省合肥市望江西路5089號,*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 骨干 粒子 算法 基因 數據 特征 選擇 方法 裝置 | ||
1.一種基于骨干粒子群算法的基因數據特征選擇方法,其特征在于:基于基因疾病數據集,通過計算機設備實現以下步驟,
S1、初始化基因疾病數據集種群,并對基因特征通過隨機分組算法進行隨機初始化分成四組;
S2、使用代理實例算法將訓練集中部分實例刪除,產生代理實例集;
S3、針對每組基因特征通過骨干粒子群算法進行Tmax次迭代,在Tmax次迭代中,又分為兩個階段,并分別通過代理實例集和原始實例集來評估粒子的函數適應值,第一階段采用分組算法使得數據進行了降維加快了優化的速度并在全局搜索中找到優化方向,第二階段利用局部搜索算法使得種群在找到優化方向后找到最優解,最優解即找到效果最好的基因特征;
S4、輸出效果最好的基因特征。
2.根據權利要求1所述的基于骨干粒子群算法的基因數據特征選擇方法,其特征在于:S2中代理實例算法步驟包括:
首先,算法先將訓練集中噪音實例刪除,如果實例被k個鄰居錯誤分類,便被認為是噪音實例將其刪去;
隨后,對每個剩余的實例,計算“敵人”距離,即每個實例與不同類實例的最近距離,若“敵人”距離越大,可以認為該實例離邊界離的越遠,以“敵人”距離將實例排序,“敵人”距離越高的將優先被刪去;
最后,對于每個實例,建立一個最近的鄰居列表,以及一個關聯列表,如果一個實例的刪除不會影響其余S中剩余實例的分類,便將他刪除;當一個實例被刪除時,要將其關聯列表中的鄰居列表中刪除P,然后再找一個新的鄰居,這樣它們的列表中依舊有k個鄰居,當他們找到一個新的鄰居N時,它們還將其添加到N的關聯列表;
最終得到刪減過后的S,就是代理實例數據集。
3.根據權利要求2所述的基于骨干粒子群算法的基因數據特征選擇方法,其特征在于:所述代理實例算法的偽代碼如下:
參數:T訓練集
1)S=T
2)FOR S中的每個實例P
(1)如果由P的k個鄰居分類標簽與P的原有標簽不一致,便認為是噪音實例
(2)刪除從S中P
3)ENDFOR
4)FOR S中的每個實例P
(1)找到P中N+1個鄰居N1....k+1
(2)將P加入到N+1個N1....k+1的關聯列表中
5)ENDFOR
6)計算每個實例的“敵人”距離
7)FOR S中的每個實例P
(1)with=如果P存在的話,P的關聯列表中的實例被成功分類的個數
(2)without=如果P被刪去的話P的關聯列表中的實例被失敗分類的個數
(3)IF without=with
①將P從S中刪除
②FOR P關聯列表中的A
1)將P從A中鄰居列表中刪除
2)重新找到A的鄰居
3)將A加入到新鄰居的關聯列表
③ENDFOR
④FOR P中的N個鄰居
1)把P從N的關聯列表中刪去
⑤ENDFOR
(4)ENDIF
8)ENDFOR
9)返回S。
4.根據權利要求1所述的基于骨干粒子群算法的基因數據特征選擇方法,其特征在于:所述S1中隨機分組算法包括以下步驟,
初始化將特征進行隨機編號,并隨機分裂成四組;
其中,相同組的特征取相同的值,在迭代過程中,如果種群陷入到局部最優的境況,便進行小組分裂,則新小組數=2*原小組數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于合肥綜合性國家科學中心人工智能研究院(安徽省人工智能實驗室),未經合肥綜合性國家科學中心人工智能研究院(安徽省人工智能實驗室)許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110858994.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:設備安全策略配置方法
- 下一篇:業務信息處理方法和裝置





