[發明專利]一種改進特征選擇的方法有效
| 申請號: | 201810859899.0 | 申請日: | 2018-08-01 |
| 公開(公告)號: | CN109325511B | 公開(公告)日: | 2020-07-31 |
| 發明(設計)人: | 汪海濤 | 申請(專利權)人: | 昆明理工大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06F16/35;G06F40/289 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 650093 云*** | 國省代碼: | 云南;53 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 改進 特征 選擇 方法 | ||
本發明公開了一種改進特征選擇的算法,屬于特征空間的高維度特征選擇技術領域。本發明首先使用RDC(相對判別標準)度量來計算每個特征的相關性,然后使用皮爾遜相關系數來計算特征之間的相關值。最后通過計算本發明定義的M值來逐步選擇最優特征。本發明不僅選擇特征空間中最相關的特征,而且使用相關性度量考慮它們之間的冗余,能從特征空間中過濾冗余和不相關的特征,選擇特征空間中最優特征子集,將特征空間降維,從而提高文本分類的性能。
技術領域
本發明涉及一種改進特征選擇的方法,屬于特征空間的高維度特征選擇技術領域。
背景技術
大數據時代締造者就是互聯網,互聯網的急速發展使數據量呈現爆炸式增加。在如此大的數據量面前,既給人們帶來千載難逢的機遇又給人們帶來了極大的挑戰。很多有價值的信息被大量的無用數據淹沒,使人們很難獲得自己需要而且又有價值的信息,因此如何從大量數據中挖掘出人們需要的信息成為研究的重點方向。文本分類己成為一個重要的研究課題,在機器學習、信息檢索和垃圾郵件過濾中得到了廣泛的研究和應用。在這些領域應用文本分類技術,有許多優點。對于數字圖書館的分類管理,相對于人工方法,大大縮短了文檔的歸類整理時問。在信息檢索領域,借助文本分類技術,將文本信息分為相關和不相關類別,過濾掉無用的檢索結果,能明顯提高檢索的準確率和速度。當前文本分類的技術和理論已比較成熟,并取得了不錯的成果。但是隨著移動互聯網的發展,文本數據出現了許多新的特征。例如以微博、微信、社區和貼吧為主的社交網絡流行,短文本數據在逐漸增多。此外,文本的類別數日增多、類別分布不均勻、類別標注困難等新的變化,也給文本分類帶來了巨人挑戰。文本分類還有很大的改善空間,仍有必要對其進行研究,改善文本分類的效果。在文本分類的過程中,文檔通常被建模為一個向量空間,其中每個單詞被認為是一個特征。在文檔的矢量模型中,特征的值可以是其對應詞的頻率或詞頻-逆文檔頻率(tf-idf)。文本分類中最重要的問題之一是處理特征空間的高維度。特征空間的高維特別是在包含大量單詞的文本分類任務中導致增加的計算成本和降低的分類性能。特征選擇和提取是降低文本特征空間維度的兩種主要方法。特征選擇近年來得到關注,旨在從數據中利用一定的策略選擇出原始特征集的一個最優子集,從而促進后續其它目標任務的學習。特征選擇的目標包含三個方面的意義:(1)提高目標模型的預測性能;(2)減少目標模型的訓練時間和預測時間,提高效率;(3)揭示數據中的隱含意義和數據的產生過程。簡單來講就是,特征選擇使得數據更加精簡有效,同時有助于更好地理解數據。特征選擇作為數據處理的首要一步,對于大數據,可減小數據規模,降低目標模型學習的難度,對于高維數據,能對數據降維以克服“維度災難”問題,防止模型過擬合。尤其是對高維數據的學習中,對數據進行分析和學習的難度和成本相對數據維度呈現指數級增長,必須學習復雜模型,以提高模型的表達能力,同時還需要指數級增長的數據量來支持復雜模型的學習。數據量過小,則會導致模型過擬合,模型的泛化性能差。因此,對數據進行特征選擇十分必要,但要在原始特征集的龐大子集空間中找到最優特征集作為對數據的表示,難度極大。特征提取是指通過合并或變換原始類型來生成一小組新特征的過程,而在特征選擇中,通過選擇最顯著的特征來減少空間維度。特征選擇方法可以分為四類:過濾器,包裝器,嵌入式和混合式方法。過濾器方法對特征空間執行統計分析以選擇特征的區分性子集。特征選擇方法應該能夠識別和移除盡可能多的不相關和冗余特征。大多數特征選擇方法可以有效地去除不相關的特征,但是不能處理冗余特征。
發明內容
本發明要解決的技術問題是提供了一種改進特征選擇方法,目的是為了克服上述現有技術的不足,該方法能從特征空間中過濾冗余和不相關的特征,選擇特征空間中最優特征子集,從而達到降維的目的,進一步提高文本分類的效果。
本發明采用的技術方案是:一種改進特征提取的方法,包括如下步驟:
Step1:輸入最終特征空間包含的特征數量k,創建一個新的集合S,F為文檔D的所有特征集合;
Step2:遍歷F中的每一個特征fs,計算其相關性值RDC(fs),即使用下列方程組計算RDC值:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于昆明理工大學,未經昆明理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810859899.0/2.html,轉載請聲明來源鉆瓜專利網。





