[發(fā)明專利]使用遺傳算法選取特征的方法和裝置在審
| 申請(qǐng)?zhí)枺?/td> | 202010767048.0 | 申請(qǐng)日: | 2020-08-03 |
| 公開(公告)號(hào): | CN112036566A | 公開(公告)日: | 2020-12-04 |
| 發(fā)明(設(shè)計(jì))人: | 孫靖文;孫澤懿 | 申請(qǐng)(專利權(quán))人: | 上海明略人工智能(集團(tuán))有限公司 |
| 主分類號(hào): | G06N3/12 | 分類號(hào): | G06N3/12 |
| 代理公司: | 青島清泰聯(lián)信知識(shí)產(chǎn)權(quán)代理有限公司 37256 | 代理人: | 李祺 |
| 地址: | 200030 上海市徐*** | 國(guó)省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 使用 遺傳 算法 選取 特征 方法 裝置 | ||
本發(fā)明公開了一種使用遺傳算法選取特征的方法和裝置。該發(fā)明包括:在特征選擇的過程中使用遺傳算法,將所有的候選特征對(duì)應(yīng)至染色體的位中,通過染色體的位的狀態(tài)表示一個(gè)候選特征是否參與學(xué)習(xí)器的訓(xùn)練,通過隨機(jī)產(chǎn)生等方式生成第一代染色體,使用第一代染色體訓(xùn)練學(xué)習(xí)器,獲得學(xué)習(xí)效果,記為對(duì)應(yīng)染色體的適應(yīng)度,然后進(jìn)行遺傳算法的迭代,例如,選擇、繁殖、變異等,生成新一代染色體,不斷迭代,最終迭代出滿足預(yù)設(shè)條件的染色體,從而篩選出參與學(xué)習(xí)器正式訓(xùn)練的特征。解決了相關(guān)技術(shù)中訓(xùn)練機(jī)器學(xué)習(xí)模型的特征選擇方案不夠靈活,準(zhǔn)確率低的問題。進(jìn)而達(dá)到了更加靈活且更準(zhǔn)確的特征篩選效果。
技術(shù)領(lǐng)域
本發(fā)明涉及機(jī)器學(xué)習(xí)領(lǐng)域,具體而言,涉及一種使用遺傳算法選取特征的方法和裝置。
背景技術(shù)
在機(jī)器學(xué)習(xí)過程中,數(shù)據(jù)集通常包含大量不同的特征。在模型訓(xùn)練過程中包含過多的特征未必能使得模型預(yù)測(cè)或分類效果能進(jìn)一步提升。比如,某些特征是“冗余特征”,它們所包含的信息能從其他特征中推演出來,某些特征是“無關(guān)特征”,與當(dāng)前學(xué)習(xí)任務(wù)無關(guān)。而有些特征可能很關(guān)鍵,很有用,所以在訓(xùn)練模型時(shí),需要考慮不同的特征組合,從給定的特征集合中選取相關(guān)特征子集,以期達(dá)到最優(yōu)的學(xué)習(xí)器訓(xùn)練效果。
相關(guān)技術(shù)中的常見的特征選擇方法有三種:過濾式、包裹式和嵌入式。過濾式算法的缺點(diǎn)是特征選擇和相應(yīng)的算法學(xué)習(xí)以及表現(xiàn)評(píng)價(jià)沒有建立直接的關(guān)系,也就是說沒有利用算法在學(xué)習(xí)過程中的相應(yīng)表現(xiàn)來指導(dǎo)特征選擇的變化。典型的包裹式算法是拉斯維加斯方法,這種方法將特征選擇和模型學(xué)習(xí)融合在一起,缺點(diǎn)是特征子集選擇是完全隨機(jī)的,缺乏有效的指導(dǎo)。嵌入式的經(jīng)典算法是引入正則化項(xiàng),即嶺回歸,缺點(diǎn)是求解時(shí)一般要借助于近似梯度下降方法,損失函數(shù)必須是要可導(dǎo)。
針對(duì)相關(guān)技術(shù)中訓(xùn)練機(jī)器學(xué)習(xí)模型的特征選擇方案不夠靈活,準(zhǔn)確率低的問題,目前尚未提出有效的解決方案。
發(fā)明內(nèi)容
本發(fā)明的主要目的在于提供一種使用遺傳算法選取特征的方法和裝置,以解決相關(guān)技術(shù)中訓(xùn)練機(jī)器學(xué)習(xí)模型的特征選擇方案不夠靈活,準(zhǔn)確率低的問題。
為了實(shí)現(xiàn)上述目的,根據(jù)本發(fā)明的一個(gè)方面,提供了一種使用遺傳算法選取特征的方法,包括:將所有的候選特征對(duì)應(yīng)至遺傳算法使用的染色體的位中,并設(shè)置所述染色體的位的狀態(tài),其中,所述位的不同狀態(tài)用于指示與該位對(duì)應(yīng)的候選特征的選取狀態(tài),被選中的候選特征參與訓(xùn)練學(xué)習(xí)器;遍歷所述染色體,基于每條染色體中被選中的候選特征,訓(xùn)練所述學(xué)習(xí)器,將訓(xùn)練效果的評(píng)價(jià)值作為該條染色體的適應(yīng)度;依據(jù)所述適應(yīng)度對(duì)所述染色體進(jìn)行遺傳算法迭代,直至滿足預(yù)設(shè)條件時(shí)停止迭代,依據(jù)最新一代染色體選取正式訓(xùn)練所述學(xué)習(xí)器時(shí)基于的特征。
為了實(shí)現(xiàn)上述目的,根據(jù)本發(fā)明的另一方面,提供了一種使用遺傳算法選取特征的裝置,包括:設(shè)置模塊,用于將所有的候選特征對(duì)應(yīng)至遺傳算法使用的染色體的位中,并設(shè)置所述染色體的位的狀態(tài),其中,所述位的不同狀態(tài)用于指示與該位對(duì)應(yīng)的候選特征的選取狀態(tài),被選中的候選特征參與訓(xùn)練學(xué)習(xí)器;獲取適應(yīng)度模塊,用于遍歷所述染色體,基于每條染色體中被選中的候選特征,訓(xùn)練所述學(xué)習(xí)器,將訓(xùn)練效果的評(píng)價(jià)值作為該條染色體的適應(yīng)度;迭代模塊,依據(jù)所述適應(yīng)度對(duì)所述染色體進(jìn)行遺傳算法迭代,直至滿足預(yù)設(shè)條件時(shí)停止迭代,依據(jù)最新一代染色體選取正式訓(xùn)練所述學(xué)習(xí)器時(shí)基于的特征。
通過本發(fā)明,在特征選擇的過程中使用遺傳算法,將所有的候選特征對(duì)應(yīng)至染色體的位中,通過染色體的位的狀態(tài)表示一個(gè)候選特征是否參與學(xué)習(xí)器的訓(xùn)練,通過隨機(jī)產(chǎn)生等方式生成第一代染色體,使用第一代染色體訓(xùn)練學(xué)習(xí)器,獲得學(xué)習(xí)效果,記為對(duì)應(yīng)染色體的適應(yīng)度,然后進(jìn)行遺傳算法的迭代,例如,選擇、繁殖、變異等,生成新一代染色體,不斷迭代,最終迭代出滿足預(yù)設(shè)條件的染色體,從而篩選出參與學(xué)習(xí)器正式訓(xùn)練的特征。解決了相關(guān)技術(shù)中訓(xùn)練機(jī)器學(xué)習(xí)模型的特征選擇方案不夠靈活,準(zhǔn)確率低的問題。進(jìn)而達(dá)到了更加靈活且更準(zhǔn)確的特征篩選效果。
附圖說明
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海明略人工智能(集團(tuán))有限公司,未經(jīng)上海明略人工智能(集團(tuán))有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010767048.0/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。





