[發(fā)明專(zhuān)利]一種基于先驗(yàn)概率分布的嵌入式特征選擇方法和設(shè)備在審
| 申請(qǐng)?zhí)枺?/td> | 202011438665.2 | 申請(qǐng)日: | 2020-12-10 |
| 公開(kāi)(公告)號(hào): | CN112529077A | 公開(kāi)(公告)日: | 2021-03-19 |
| 發(fā)明(設(shè)計(jì))人: | 陳會(huì);姜青山;劉薇;肖焯 | 申請(qǐng)(專(zhuān)利權(quán))人: | 中國(guó)科學(xué)院深圳先進(jìn)技術(shù)研究院 |
| 主分類(lèi)號(hào): | G06K9/62 | 分類(lèi)號(hào): | G06K9/62 |
| 代理公司: | 深圳智趣知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 44486 | 代理人: | 王策 |
| 地址: | 518055 廣東省深圳*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 先驗(yàn) 概率 分布 嵌入式 特征 選擇 方法 設(shè)備 | ||
本發(fā)明提出了一種基于先驗(yàn)概率分布的嵌入式特征選擇方法和設(shè)備,方法包括:步驟1、獲取訓(xùn)練數(shù)據(jù)集中第K類(lèi)的樣本;步驟2、給定預(yù)設(shè)常數(shù),所述預(yù)設(shè)常數(shù)是由基于狄利克雷分布函數(shù)的權(quán)值得到的;所述狄利克雷分布用以估計(jì)貝葉斯定理的先驗(yàn)概率;步驟3、基于用以確定所述樣本屬于預(yù)設(shè)類(lèi)的一維高斯分布函數(shù)的平均值確定預(yù)設(shè)均值;所述一維高斯分布函數(shù)是用以估計(jì)貝葉斯定理的條件概率;步驟4、基于所述樣本的值以及所述預(yù)設(shè)均值確定中間值;步驟5、確定所述中間值進(jìn)行對(duì)數(shù)運(yùn)算的和值;步驟6、基于預(yù)設(shè)的常數(shù),所述中間值以及所述和值確定所述K類(lèi)的權(quán)重。本方案可以簡(jiǎn)單快速有效的得到權(quán)重。可以選擇權(quán)重值大的屬性代表類(lèi)別,減少數(shù)據(jù)冗余。
技術(shù)領(lǐng)域
本發(fā)明涉及計(jì)算機(jī)技術(shù)領(lǐng)域,特別涉及一種基于先驗(yàn)概率分布的嵌入式特征選擇方法和設(shè)備。
背景技術(shù)
分類(lèi)利用有標(biāo)記的樣本將未標(biāo)記的樣本分類(lèi)為已知的類(lèi)別,這是一種有監(jiān)督的學(xué)習(xí)技術(shù)。目前有許多性能良好的分類(lèi)器,如決策樹(shù)(DT)、Logistic回歸(LR)、naivebayes(NB)、神經(jīng)網(wǎng)絡(luò)等,隨著信息技術(shù)的發(fā)展,我們面臨著處理高維數(shù)據(jù)、zettabytes數(shù)據(jù)量和成千上萬(wàn)個(gè)特征的問(wèn)題。由此產(chǎn)生的維數(shù)詛咒影響分類(lèi)結(jié)果的性能。
特征選擇是一種重要的數(shù)據(jù)挖掘預(yù)處理技術(shù),它試圖刪除高維數(shù)據(jù)中的冗余信息屬性。傳統(tǒng)的特征提取方法包括線性判別分析(LDA)、主成分分析(PCA)、典型相關(guān)分析(CCA)、局部線性嵌入(LLE)和RelifF算法等。目前,特征選擇有三種基本技術(shù):過(guò)濾、包裝和嵌入方法。其中,濾波方法選擇與目標(biāo)變量相關(guān)性強(qiáng)的特征,但忽略了特征之間的相關(guān)性。包裝(英文名為wrapper)方法基于線性模型的相關(guān)系數(shù),模型得到AUC,當(dāng)相關(guān)系數(shù)的絕對(duì)值較小時(shí),AUC沒(méi)有大的變化或降低。NB分類(lèi)器具有可解釋性、簡(jiǎn)單性、可用性、實(shí)用性、擴(kuò)展性和良好的增量學(xué)習(xí)能力等特點(diǎn)。由于這些原因,它被廣泛地用于處理數(shù)據(jù)挖掘領(lǐng)域中遇到的分類(lèi)問(wèn)題。但是通常的樸素Bayes基于條件獨(dú)立性假設(shè),不能直接用于實(shí)際應(yīng)用中。即所有屬性在給定的類(lèi)中起著相同的作用(w1=w2…=wD,w代表權(quán)重,屬性的重要程度)。為了緩解其條件獨(dú)立性假設(shè),一些研究者研究了特征加權(quán)方法。然而,這些方法幾乎獨(dú)立于整個(gè)NB分類(lèi)過(guò)程,只是作為單獨(dú)的處理步驟。
現(xiàn)有技術(shù)中,為了應(yīng)對(duì)條件獨(dú)立性假設(shè),及將特征加權(quán)的方法嵌入到特征選擇算法本身,國(guó)內(nèi)外學(xué)者們開(kāi)展了相關(guān)研究。一種研究有提出所有類(lèi)的每個(gè)特征的全局加權(quán)高斯分布,即FWNB。它們的特征權(quán)重可以用wj表示,即j-th屬性代表所有的屬性類(lèi)具有相同的權(quán)重。此外,Chen等提出子空間特征權(quán)重 Bayes(SWNB),各個(gè)類(lèi)具有不同的權(quán)重,可以用wkj表示。對(duì)于類(lèi)k,每個(gè)屬性扮演相同的角色,但是對(duì)于不同的類(lèi),權(quán)重是不同的。SWNB使用牛頓法迭代優(yōu)化計(jì)算權(quán)重值。此外,還有研究提出了類(lèi)特定屬性加權(quán)樸素貝葉斯(CAWNB),它通過(guò)最大化條件對(duì)數(shù)似然(CLL)目標(biāo)函數(shù)和最小均方誤差(MSE)目標(biāo)函數(shù)來(lái)學(xué)習(xí)權(quán)重,并用L-BFGS-M優(yōu)化權(quán)重矩陣。
具體的,目前的研究方法多數(shù)把特征選擇作為數(shù)據(jù)的預(yù)處理步驟,跟整個(gè)算法是分開(kāi)的。并且大多數(shù)以優(yōu)化計(jì)算為主,需要較多的算法時(shí)間。
發(fā)明內(nèi)容
針對(duì)現(xiàn)有技術(shù)中的缺陷,本發(fā)明提出了一種基于先驗(yàn)概率分布的嵌入式特征選擇方法和設(shè)備,本方案的特征提取快速有效,分類(lèi)效率高。
本發(fā)明實(shí)施例提出了一種基于先驗(yàn)概率分布的嵌入式特征選擇方法,包括:
步驟1、獲取訓(xùn)練數(shù)據(jù)集中第K類(lèi)的樣本;
步驟2、用于給定預(yù)設(shè)常數(shù),所述預(yù)設(shè)常數(shù)是由基于狄利克雷分布函數(shù)的權(quán)值得到的;所述狄利克雷分布用以估計(jì)貝葉斯定理的先驗(yàn)概率;
步驟3、基于用以確定所述樣本屬于預(yù)設(shè)類(lèi)的一維高斯分布函數(shù)的平均值確定預(yù)設(shè)均值;所述一維高斯分布函數(shù)是用以估計(jì)貝葉斯定理的條件概率;
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于中國(guó)科學(xué)院深圳先進(jìn)技術(shù)研究院,未經(jīng)中國(guó)科學(xué)院深圳先進(jìn)技術(shù)研究院許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011438665.2/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 同類(lèi)專(zhuān)利
- 專(zhuān)利分類(lèi)
G06K 數(shù)據(jù)識(shí)別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識(shí)別印刷或書(shū)寫(xiě)字符或者用于識(shí)別圖形,例如,指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測(cè)或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個(gè)筆畫(huà)組成的,而且每個(gè)筆畫(huà)表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無(wú)須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 一種基于混合貝葉斯先驗(yàn)分布的可靠性驗(yàn)證測(cè)試方法
- 一種基于注意力先驗(yàn)的胃鏡視頻摘要方法
- 一種先驗(yàn)頻點(diǎn)排序的方法及裝置
- 一種混合相位子波提取方法
- 視頻預(yù)測(cè)方法和裝置、電子設(shè)備及車(chē)輛
- 視頻預(yù)測(cè)方法、視頻預(yù)測(cè)裝置、電子設(shè)備和車(chē)輛
- 一種應(yīng)用于神經(jīng)網(wǎng)絡(luò)的先驗(yàn)框確定方法及裝置
- 基于先驗(yàn)地圖信息的障礙物檢測(cè)方法、裝置和存儲(chǔ)介質(zhì)
- 處理傳感器信息以供對(duì)象檢測(cè)
- 一種病變圖像的病灶檢測(cè)方法及裝置





