[發(fā)明專利]基于骨干粒子群算法的基因數(shù)據(jù)特征選擇方法及裝置在審
| 申請?zhí)枺?/td> | 202110858994.0 | 申請日: | 2021-07-28 |
| 公開(公告)號: | CN113571134A | 公開(公告)日: | 2021-10-29 |
| 發(fā)明(設(shè)計)人: | 許鎮(zhèn)義;潘凱;程凡;康宇;曹洋 | 申請(專利權(quán))人: | 合肥綜合性國家科學(xué)中心人工智能研究院(安徽省人工智能實驗室) |
| 主分類號: | G16B35/20 | 分類號: | G16B35/20;G16B40/00;G06K9/62;G06N3/12 |
| 代理公司: | 合肥天明專利事務(wù)所(普通合伙) 34115 | 代理人: | 苗娟 |
| 地址: | 230000 安徽省合肥市望江西路5089號,*** | 國省代碼: | 安徽;34 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 骨干 粒子 算法 基因 數(shù)據(jù) 特征 選擇 方法 裝置 | ||
本發(fā)明的一種基于骨干粒子群算法的基因數(shù)據(jù)特征選擇方法及裝置,基于基因疾病數(shù)據(jù)集,通過初始化基因疾病數(shù)據(jù)集種群,并對基因特征通過隨機(jī)分組算法進(jìn)行隨機(jī)初始化分成四組;使用代理實例算法將訓(xùn)練集中部分實例刪除,產(chǎn)生代理實例集;針對每組基因特征通過骨干粒子群算法進(jìn)行Tmax次迭代,在Tmax次迭代中,分為兩個階段,并分別通過代理實例集和原始實例集來評估粒子的函數(shù)適應(yīng)值,第一階段采用分組算法使得數(shù)據(jù)進(jìn)行了降維加快了優(yōu)化的速度并在全局搜索中找到優(yōu)化方向,第二階段利用局部搜索算法使得種群在找到優(yōu)化方向后找到最優(yōu)解,最優(yōu)解即找到效果最好的基因特征并輸出。本發(fā)明提高了基因數(shù)據(jù)的分類精度,在多個疾病基因數(shù)據(jù)集上取得良好效果。
技術(shù)領(lǐng)域
本發(fā)明涉及面向大規(guī)模特征選擇的技術(shù)領(lǐng)域,具體涉及一種基于骨干粒子群算法的基因數(shù)據(jù)特征選擇方法及裝置。
背景技術(shù)
在數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)中,通常涉及大量特征,但是并非所有特征都是必不可少的,因為其中許多特征都是多余的甚至是冗余的,這可能會降低算法的性能,選擇旨在通過從原始特征集中選擇一部分子集來解決問題。然而特征選擇是一項具有挑戰(zhàn)性的任務(wù),主要是因為搜索空間隨著維度增大會呈指數(shù)增大,其中進(jìn)化算法因全局搜索能力而聞名。對于大規(guī)模的特征選擇,主要的挑戰(zhàn)在于實例數(shù)多導(dǎo)致評價階段計算時間長以及維度高導(dǎo)致分類精度低。
近年來,基于基因表達(dá)譜問題引起了廣泛關(guān)注,為疾病的精確診斷及分類提供了極大的便利.然而,由于基因表達(dá)譜數(shù)據(jù)存在樣本數(shù)量小、維數(shù)高、噪聲大及冗余度高等特點,給深入準(zhǔn)確地挖掘基因表達(dá)譜中所蘊(yùn)含的生物醫(yī)學(xué)知識和腫瘤信息基因選擇帶來了極大困難。基因表達(dá)譜數(shù)據(jù)中包含組織細(xì)胞中所有可測基因的表達(dá)水平,但事實是僅有少量基因才切實與樣本類別有關(guān)。
發(fā)明內(nèi)容
本發(fā)明提出的一種基于骨干粒子群算法的基因數(shù)據(jù)特征選擇方法,可解決上述技術(shù)問題,以有骨干粒子群算法作為框架,具體涉及一種代理實例算法以及隨機(jī)分組算法及裝置,其算法在多個疾病基因數(shù)據(jù)集上取得良好效果。
為實現(xiàn)上述目的,本發(fā)明采用了以下技術(shù)方案:
一種基于骨干粒子群算法的基因數(shù)據(jù)特征選擇方法,包括:
基于基因疾病數(shù)據(jù)集,通過計算機(jī)設(shè)備實現(xiàn)以下步驟,
S1、初始化基因疾病數(shù)據(jù)集種群,并對基因特征通過隨機(jī)分組算法進(jìn)行隨機(jī)初始化分成四組;
S2、使用代理實例算法將訓(xùn)練集中部分實例刪除,產(chǎn)生代理實例集;
S3、針對每組基因特征通過骨干粒子群算法進(jìn)行Tmax次迭代,在 Tmax次迭代中,又分為兩個階段,并分別通過代理實例集和原始實例集來評估粒子的函數(shù)適應(yīng)值,第一階段采用分組算法使得數(shù)據(jù)進(jìn)行了降維加快了優(yōu)化的速度并在全局搜索中找到優(yōu)化方向,第二階段利用局部搜索算法使得種群在找到優(yōu)化方向后找到最優(yōu)解,最優(yōu)解即找到效果最好的基因特征;
S4、輸出效果最好的基因特征。
進(jìn)一步的,S2中代理實例算法步驟包括:
首先,算法先將訓(xùn)練集中噪音實例刪除,如果實例被k個鄰居錯誤分類,便被認(rèn)為是噪音實例將其刪去;
隨后,對每個剩余的實例,計算“敵人”距離,即每個實例與不同類實例的最近距離,若“敵人”距離越大,可以認(rèn)為該實例離邊界離的越遠(yuǎn),以“敵人”距離將實例排序,“敵人”距離越高的將優(yōu)先被刪去;
最后,對于每個實例,建立一個最近的鄰居列表,以及一個關(guān)聯(lián)列表,如果一個實例的刪除不會影響其余S中剩余實例的分類,便將他刪除;當(dāng)一個實例被刪除時,要將其關(guān)聯(lián)列表中的鄰居列表中刪除P,然后再找一個新的鄰居,這樣它們的列表中依舊有k個鄰居,當(dāng)他們找到一個新的鄰居N時,它們還將其添加到N的關(guān)聯(lián)列表;
最終得到刪減過后的S,就是代理實例數(shù)據(jù)集。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于合肥綜合性國家科學(xué)中心人工智能研究院(安徽省人工智能實驗室),未經(jīng)合肥綜合性國家科學(xué)中心人工智能研究院(安徽省人工智能實驗室)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110858994.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 基于骨干結(jié)構(gòu)的高可靠無線廣播方法
- 一種基于LDA與PCA的骨干網(wǎng)架生存性評估方法
- 一種列車冗余動態(tài)配置方法及系統(tǒng)
- 農(nóng)田混合供電無線傳感器網(wǎng)絡(luò)的網(wǎng)絡(luò)層次構(gòu)建方法及系統(tǒng)
- 基于骨干網(wǎng)絡(luò)擴(kuò)展的社團(tuán)檢測方法
- 一種列車骨干網(wǎng)及列車通信網(wǎng)絡(luò)
- 列車通信網(wǎng)絡(luò)數(shù)據(jù)處理方法及系統(tǒng)
- 蝸殼類鑄件砂芯用防漂芯抗折彎芯骨
- 一種目標(biāo)檢測方法、系統(tǒng)、裝置及可讀存儲介質(zhì)
- 一種基于無線傳感器網(wǎng)絡(luò)的電力施工現(xiàn)場信息化監(jiān)理系統(tǒng)





