[發(fā)明專利]基于文檔層詞頻重排序的特征選擇方法有效
| 申請(qǐng)?zhí)枺?/td> | 201810820200.X | 申請(qǐng)日: | 2018-07-24 |
| 公開(kāi)(公告)號(hào): | CN109376235B | 公開(kāi)(公告)日: | 2021-11-16 |
| 發(fā)明(設(shè)計(jì))人: | 周紅芳;張英杰;劉虹江;張堯;張懿輝;吳珞風(fēng) | 申請(qǐng)(專利權(quán))人: | 西安理工大學(xué) |
| 主分類號(hào): | G06F16/35 | 分類號(hào): | G06F16/35 |
| 代理公司: | 西安弘理專利事務(wù)所 61214 | 代理人: | 談耀文 |
| 地址: | 710048*** | 國(guó)省代碼: | 陜西;61 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 文檔 詞頻 排序 特征 選擇 方法 | ||
本發(fā)明公開(kāi)了一種基于文檔層詞頻重排序的特征選擇方法。它的主要目的是為了降低特征空間的維度,提高分類的精度。首先基于現(xiàn)有數(shù)據(jù)集,去除那些冗余的、信息量特別少的特征,然后依據(jù)特征選擇方法進(jìn)行數(shù)據(jù)集的降維處理,最后基于當(dāng)前特征集合,通過(guò)5折交叉驗(yàn)證的方法,構(gòu)建分類模型并得出分類F1值,選取對(duì)應(yīng)分類F1值最高的特征集作為最優(yōu)特征集。本發(fā)明專利技術(shù)的方法用于特征選擇,幫助發(fā)現(xiàn)具有區(qū)分能力的詞條信息,并且通過(guò)詞條頻率在文檔層上的重排序方法來(lái)克服文檔頻率計(jì)算方式的單一性問(wèn)題和數(shù)據(jù)集的非平衡性問(wèn)題。
技術(shù)領(lǐng)域
本發(fā)明屬于數(shù)據(jù)挖掘方法技術(shù)領(lǐng)域,涉及一種基于文檔層詞頻重排序的特征選擇方法。
背景技術(shù)
隨著互聯(lián)網(wǎng)的不斷發(fā)展,科學(xué)知識(shí)、互聯(lián)網(wǎng)數(shù)據(jù)以及各種資源呈現(xiàn)出海量的特點(diǎn)。數(shù)據(jù)處理與數(shù)據(jù)存儲(chǔ)技術(shù)不斷提高,也使網(wǎng)絡(luò)中文檔數(shù)量不斷地呈指數(shù)級(jí)增長(zhǎng),如何從海量信息中快速、準(zhǔn)確的獲取有價(jià)值的信息成為人們迫切需要解決的難題。手動(dòng)處理數(shù)據(jù)的能力已遠(yuǎn)遠(yuǎn)不能滿足現(xiàn)實(shí)生活的要求,有效地組織和管理信息,快速地區(qū)分有用和無(wú)用信息,都面臨著巨大的挑戰(zhàn)。分類技術(shù)成為解決這一問(wèn)題的關(guān)鍵技術(shù),并且被廣泛應(yīng)用到不同場(chǎng)景,如信息過(guò)濾、信息檢索、搜索引擎、詞義辨析、郵件分類、數(shù)字圖書館、文本語(yǔ)料庫(kù)構(gòu)建等。在信息科學(xué)領(lǐng)域中,它是指計(jì)算機(jī)按照一定標(biāo)準(zhǔn)或類別體系對(duì)數(shù)據(jù)集進(jìn)行自動(dòng)類別劃分的過(guò)程。
分類技術(shù)可分為數(shù)據(jù)集預(yù)處理、特征選擇、分類算法、性能評(píng)估等多個(gè)階段。因?yàn)樵诜诸惖奶幚磉^(guò)程中必然出現(xiàn)“高維度”的問(wèn)題,在分類器的運(yùn)行時(shí)間和準(zhǔn)確性方面,高維數(shù)據(jù)會(huì)使其分類性能大大降低。因此特征選擇作為一種常見(jiàn)的降維方法已成為信息分類的關(guān)鍵技術(shù)。特征選擇指的是從原始特征空間中選擇出具有較強(qiáng)的類別區(qū)分能力的特征項(xiàng),依據(jù)某一種或某些評(píng)價(jià)標(biāo)準(zhǔn)對(duì)特征全集進(jìn)行降維處理,生成較低維度的特征子集,并且在很多方面它已經(jīng)展現(xiàn)出了實(shí)際應(yīng)用價(jià)值。
目前,常見(jiàn)的特征選擇方法有文檔頻率(DF)、歸一化差值測(cè)量方法(NDM)、平衡精度(ACC2)、卡方檢驗(yàn)(CHI)、優(yōu)勢(shì)率(OR)和基尼系數(shù)(GINI)等。這些方法在理論上是合理的,但應(yīng)用于分類時(shí),效果卻有所不同。通過(guò)研究發(fā)現(xiàn),這些方法以不同的衡量標(biāo)準(zhǔn)對(duì)特征詞進(jìn)行排序,NDM和ACC2使用真正率和假正率來(lái)進(jìn)行計(jì)算;CHI是以x2分布為基礎(chǔ)的假設(shè)檢驗(yàn)方法;OR是使用事件發(fā)生的概率與事件不發(fā)生的概率的比率來(lái)表示特征詞的重要度;GINI是一種非純度的屬性分裂方法。我們發(fā)現(xiàn),它們都是通過(guò)統(tǒng)計(jì)不同情況下對(duì)應(yīng)的文檔數(shù)來(lái)進(jìn)行計(jì)算的,盡可能全面的使用詞條正負(fù)類之間的文檔頻率進(jìn)行特征排序,生成特征子集。
通過(guò)對(duì)常見(jiàn)特征選擇方法的研究,從頻率的角度考慮,雖然大多數(shù)特征選擇算法都充分使用了文檔頻率,但是忽略了詞條頻率對(duì)其的影響,沒(méi)有綜合考慮文檔頻率和詞頻兩者之間的相互影響;從類別信息角度考慮,很多方法都偏向平衡數(shù)據(jù)集,但在實(shí)際問(wèn)題中,很多數(shù)據(jù)集是不平衡的。因此,需要提出一種以詞頻和文檔頻率結(jié)合的方式進(jìn)行特征選擇的方法,以提高文本分類的準(zhǔn)確率。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種基于文檔層詞頻重排序的特征選擇方法,解決現(xiàn)有技術(shù)存在的分類精度較低的問(wèn)題。
本發(fā)明采用技術(shù)方案是,一種基于文檔層詞頻重排序的特征選擇方法的具體操作步驟如下:
步驟1:獲取已經(jīng)進(jìn)行了詞干提取和去停用詞處理的WAP、RE0、RE1、 K1a、K1b、20Newsgroups這六種數(shù)據(jù)集,消除數(shù)據(jù)集中頻繁出現(xiàn)和幾乎不出現(xiàn)的詞條,另外,采用5折交叉驗(yàn)證法劃分測(cè)試集和訓(xùn)練集;
步驟2:使用基于文檔層詞頻重排序的特征選擇方法,設(shè)置特征詞個(gè)數(shù),生成最優(yōu)特征子集;
步驟3:使用樸素貝葉斯分類器和支持向量機(jī)分類器對(duì)最優(yōu)特征子集依次進(jìn)行訓(xùn)練和分類,訓(xùn)練出分類器的模型,得到分類結(jié)果;
本發(fā)明的特點(diǎn)還在于,
步驟1頻繁出現(xiàn)的詞條是指詞條出現(xiàn)的文檔頻率超過(guò)25%的詞條。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于西安理工大學(xué),未經(jīng)西安理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810820200.X/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 一種電子文檔識(shí)別方法及裝置
- 文檔匹配方法和文檔匹配裝置
- 復(fù)雜文檔分離組織方法以及復(fù)雜文檔自動(dòng)生成方法
- 一種文檔流程控制方法及裝置
- 云文檔加密及解密方法、加密及解密裝置、以及處理系統(tǒng)
- 一種將Markdown文檔轉(zhuǎn)換為PDF文檔的方法、裝置
- 文檔類型識(shí)別方法、裝置、設(shè)備和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 基于文檔編輯軟件的文檔處理方法、裝置、設(shè)備及介質(zhì)
- 一種引用文檔的更新方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 文檔操作錄制方法、文檔操作動(dòng)畫生成方法、裝置及設(shè)備
- 基于互聯(lián)網(wǎng)信息的輸入法詞頻庫(kù)的生成方法和系統(tǒng)
- 基于用戶特性的詞頻庫(kù)的生成方法
- 詞典生成裝置以及信息檢索裝置
- 一種數(shù)字出版物詞匯抽取、顯示方法和系統(tǒng)
- 一種基于互聯(lián)網(wǎng)詞頻的城市認(rèn)知地圖生成方法
- 熱詞詞組提取方法和系統(tǒng)
- 文本相似度確定方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 基于詞頻的文本特征加權(quán)及短文本相似性計(jì)算方法、系統(tǒng)和介質(zhì)
- 一種輸入的方法及相關(guān)裝置
- 自動(dòng)回復(fù)生成方法、裝置及智能設(shè)備





