[發(fā)明專利]一種信息增益混合鄰域粗糙集的高維度特征選擇方法有效
| 申請(qǐng)?zhí)枺?/td> | 201910168981.3 | 申請(qǐng)日: | 2019-03-06 |
| 公開(kāi)(公告)號(hào): | CN109934278B | 公開(kāi)(公告)日: | 2023-06-27 |
| 發(fā)明(設(shè)計(jì))人: | 陸惠玲;周濤;張飛飛;梁蒙蒙;楊健 | 申請(qǐng)(專利權(quán))人: | 寧夏醫(yī)科大學(xué) |
| 主分類號(hào): | G06V10/771 | 分類號(hào): | G06V10/771;G06V10/25;G06V10/26;G06V10/764 |
| 代理公司: | 北京慕達(dá)星云知識(shí)產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙) 11465 | 代理人: | 李冉 |
| 地址: | 750000 寧夏回族*** | 國(guó)省代碼: | 寧夏;64 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 信息 增益 混合 鄰域 粗糙 維度 特征 選擇 方法 | ||
本發(fā)明公開(kāi)了一種信息增益混合鄰域粗糙集的高維度特征選擇方法,具體步驟包括如下:步驟一:數(shù)據(jù)預(yù)處理;步驟二:圖像分割;步驟三:特征提??;步驟四:特征歸一化;步驟五:基于信息增益的特征選擇;步驟六:基于領(lǐng)域粗糙集的特征選擇;步驟七:對(duì)兩次約簡(jiǎn)結(jié)果進(jìn)行分類識(shí)別。本發(fā)明公開(kāi)提供了一種信息增益混合鄰域粗糙集的高維度特征選擇方法,并從理論層面分析兩階段約簡(jiǎn)算法的可行性。算法可以提高算法的正確率,有效降低時(shí)間復(fù)雜度,并且綜合對(duì)比不同方法構(gòu)建的高維特征選擇算法的性能,確保本文方法的優(yōu)越性,從模型方法的逐步選擇上保證結(jié)果的科學(xué)性,對(duì)肺部腫瘤良惡性的識(shí)別具有一定的參考價(jià)值。
技術(shù)領(lǐng)域
本發(fā)明涉及圖像處理技術(shù)領(lǐng)域,更具體的說(shuō)是涉及一種信息增益混合鄰域粗糙集的高維度特征選擇方法。
背景技術(shù)
信息增益(information?gain,IG)和粗糙集(rough?set,RS)是特征選擇常用的兩種算法,IG是衡量包含或者不包含某個(gè)特征時(shí)為分類器提供了多少信息量的指標(biāo),依次求出每個(gè)特征對(duì)分類器提供的信息量,然后從大到小進(jìn)行排序,按照一定的規(guī)則取前K個(gè)特征,從而達(dá)到利用信息增益進(jìn)行特征選擇的目的。IG進(jìn)行特征選擇計(jì)算復(fù)雜度較低,只需單次運(yùn)算,因此運(yùn)行效率較高,可以有效剔除冗余、不相關(guān)以及噪聲特征。但I(xiàn)G作為一種過(guò)濾式算法進(jìn)行特征選擇仍然存在問(wèn)題,它只能考察特征對(duì)整個(gè)系統(tǒng)的貢獻(xiàn),而不能詳細(xì)到某個(gè)類別上,并且并未考慮特征之間的關(guān)系,因此只適合用來(lái)做“全局”的特征選擇(指全部的類都使用同樣的特征集合)。而無(wú)法做“局部”的特征選擇(每一個(gè)類別有自己的特征集合,有的特征對(duì)某一類別具有較大的區(qū)分度,而對(duì)其他類別則無(wú)足輕重)。RS是處理不確定性數(shù)據(jù)的有效工具,因其無(wú)需先驗(yàn)知識(shí)的特性,廣泛應(yīng)用于特征選擇、模式識(shí)別、數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)等領(lǐng)域。RS研究的兩個(gè)重要概念分別是概念近似和屬性約簡(jiǎn),其中屬性約簡(jiǎn)是在不影響當(dāng)前識(shí)別任務(wù)可辨性的前提下降低屬性的維度,但是RS最初是在一定基礎(chǔ)上構(gòu)建的等價(jià)關(guān)系,在許多實(shí)際應(yīng)用中都受到了限制。因此為了避免數(shù)據(jù)對(duì)單一方法的依賴以及更好的剔除數(shù)據(jù)集中的冗余和不相關(guān)屬性,很多學(xué)者將IG的全局特征選擇能力與RS優(yōu)越的屬性約簡(jiǎn)能力相結(jié)合進(jìn)行高維特征選擇,已經(jīng)成功應(yīng)用于情感分析、房地產(chǎn)價(jià)目分析、腫瘤診斷分類、漁情預(yù)測(cè)等。但是Pawlak?RS只能處理名義型變量,實(shí)際應(yīng)用中的數(shù)據(jù)往往是連續(xù)的數(shù)值變量,離散化后的數(shù)據(jù)集雖然可以適應(yīng)RS算法等價(jià)類的構(gòu)建,但是也可能會(huì)丟失重要信息并且不同的離散化策略也會(huì)影響約簡(jiǎn)效果。為此,胡清華等人引入鄰域關(guān)系提出了改進(jìn)的Pawlak?RS,即鄰域粗糙集(neighborhood?rough?set,NRS),可以直接對(duì)連續(xù)的數(shù)值型數(shù)據(jù)進(jìn)行處理。IG和RS雖然都可以單獨(dú)進(jìn)行特征選擇,但是存在一定的局限性,因此將兩者的優(yōu)勢(shì)相結(jié)合進(jìn)行特征選擇具有一定的可行性,借助IG結(jié)果選出高相關(guān)的特征子集,再通過(guò)NRS剔除高冗余的屬性,其中,NRS可以克服RS只適合處理離散變量而導(dǎo)致原始信息大量丟失的問(wèn)題。通過(guò)兩次屬性約簡(jiǎn)得到最優(yōu)的特征子集,能更好的剔除數(shù)據(jù)集中的冗余和不相關(guān)特征,提高算法的性能,降低時(shí)間復(fù)雜度,也可以避免數(shù)據(jù)對(duì)單一方法的依賴。
因此,如何提供一種信息增益混合鄰域粗糙集的高維度特征選擇方法是本領(lǐng)域技術(shù)人員亟需解決的問(wèn)題。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明提供了一種信息增益混合鄰域粗糙集的高維度特征選擇方法,并從理論層面分析兩階段約簡(jiǎn)算法的可行性。通過(guò)與不約簡(jiǎn)算法、Pawlak?RS、IG和NRS約簡(jiǎn)算法進(jìn)行比較可知,該算法可以提高算法的正確率,有效降低時(shí)間復(fù)雜度,并且綜合對(duì)比不同方法構(gòu)建的高維特征選擇算法的性能,確保本文方法的優(yōu)越性,從模型方法的逐步選擇上保證結(jié)果的科學(xué)性,對(duì)肺部腫瘤良惡性的識(shí)別具有一定的參考價(jià)值。
為了實(shí)現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:
一種信息增益混合鄰域粗糙集的高維度特征選擇方法,具體步驟包括如下:
步驟一:數(shù)據(jù)預(yù)處理;將圖像分別按照順序編號(hào),去偽彩轉(zhuǎn)化為灰度圖像;從灰度圖像中劃分ROI區(qū)域,并將ROI區(qū)域的圖像歸一化;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于寧夏醫(yī)科大學(xué),未經(jīng)寧夏醫(yī)科大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910168981.3/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 信息記錄介質(zhì)、信息記錄方法、信息記錄設(shè)備、信息再現(xiàn)方法和信息再現(xiàn)設(shè)備
- 信息記錄裝置、信息記錄方法、信息記錄介質(zhì)、信息復(fù)制裝置和信息復(fù)制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄設(shè)備、信息重放設(shè)備、信息記錄方法、信息重放方法、以及信息記錄介質(zhì)
- 信息存儲(chǔ)介質(zhì)、信息記錄方法、信息重放方法、信息記錄設(shè)備、以及信息重放設(shè)備
- 信息存儲(chǔ)介質(zhì)、信息記錄方法、信息回放方法、信息記錄設(shè)備和信息回放設(shè)備
- 信息記錄介質(zhì)、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置





