[發(fā)明專利]一種基于全覆蓋粒計(jì)算的文本特征選擇方法在審
| 申請(qǐng)?zhí)枺?/td> | 201810641512.4 | 申請(qǐng)日: | 2018-06-21 |
| 公開(kāi)(公告)號(hào): | CN109165290A | 公開(kāi)(公告)日: | 2019-01-08 |
| 發(fā)明(設(shè)計(jì))人: | 謝珺;鄒雪君;靳紅偉;續(xù)欣瑩 | 申請(qǐng)(專利權(quán))人: | 太原理工大學(xué) |
| 主分類號(hào): | G06F16/35 | 分類號(hào): | G06F16/35 |
| 代理公司: | 太原市科瑞達(dá)專利代理有限公司 14101 | 代理人: | 盧茂春 |
| 地址: | 030024 山西*** | 國(guó)省代碼: | 山西;14 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 特征詞 約簡(jiǎn) 詞頻 全覆蓋 文檔 文本特征選擇 概率 詞性 算法 文本 語(yǔ)義 詞性標(biāo)注 權(quán)重系數(shù) 算法計(jì)算 樣本文本 語(yǔ)義信息 主題模型 停用詞 表意 分詞 聚類 粒化 權(quán)重 去除 改進(jìn) 聯(lián)合 | ||
一種基于全覆蓋粒計(jì)算的文本特征選擇方法,包括:1)對(duì)樣本文本集進(jìn)行分詞、去停用詞、詞性標(biāo)注;2)把位置、詞性因素以不同的權(quán)重系數(shù)擴(kuò)展至TFIDF算法中計(jì)算特征詞的“文檔?詞頻”概率;3)采用bLDA主題模型生成特征詞概率來(lái)計(jì)算特征詞的語(yǔ)義信息;4)對(duì)特征詞進(jìn)行文本粒化,利用全覆蓋粒計(jì)算的知識(shí)約簡(jiǎn)算法對(duì)特征詞進(jìn)行約簡(jiǎn),得到約簡(jiǎn)后的特征詞集的“文檔?詞頻”概率;5)聯(lián)合bLDA和改進(jìn)的TFIDF算法計(jì)算的特征詞權(quán)重,得到約簡(jiǎn)后的特征詞集的”文檔?詞頻”概率。采用本發(fā)明,考慮特征詞的詞性、位置和語(yǔ)義因素,同時(shí)去除對(duì)文本表意不強(qiáng)的特征詞,從而選出更具代表的特征詞集,提高聚類的精度。
技術(shù)領(lǐng)域
本發(fā)明屬于文本挖掘領(lǐng)域與全覆蓋粒計(jì)算的交叉領(lǐng)域,具體涉及文本的特征選擇與全覆蓋粒計(jì)算模型,尤其涉及全覆蓋粒計(jì)算的知識(shí)約簡(jiǎn)在文本特征選擇中的應(yīng)用。
背景技術(shù)
文本聚類是模式識(shí)別、機(jī)器學(xué)習(xí)以及數(shù)據(jù)挖掘領(lǐng)域研究的重要課題,主要是將文本對(duì)象的集合分組成為由類似的對(duì)象組成的多個(gè)類,從而實(shí)現(xiàn)對(duì)未知文本數(shù)據(jù)的聚類。目前,主要采用向量空間模型對(duì)文本信息進(jìn)行結(jié)構(gòu)化表示,然而該模型存在特征空間的高維性和數(shù)據(jù)稀疏性問(wèn)題。高維的特征空間不僅增加系統(tǒng)運(yùn)算的時(shí)間復(fù)雜性和空間復(fù)雜性,而且還包含大量無(wú)效、冗余的特征,大大降低了文本聚類的質(zhì)量。因而,在文本聚類中采用一種有效的特征選擇方法就顯得至關(guān)重要。有效的特征選擇方法可以降低特征向量的維數(shù),去除冗余特征,保留具有較強(qiáng)類別區(qū)分能力和表意性較強(qiáng)的特征,從而提高聚類的質(zhì)量和魯棒性。
針對(duì)文本特征選擇問(wèn)題,專家學(xué)者們分別提出了一系列的解決方法,但是在解決文本特征這一關(guān)鍵問(wèn)題上,這些方法仍存在一些問(wèn)題,主要有:
1)現(xiàn)在有很多學(xué)者采用信息增益(IG)、互信息(MI)、卡方統(tǒng)計(jì)(CHI)等方法,這些基于統(tǒng)計(jì)的方法在一定程度上可以選出有效的特征,但方法忽略了文本的語(yǔ)義信息。
2)有些學(xué)者利用LDA主題模型作特征選擇,解決了文本的語(yǔ)義信息,但該算法忽略了文本的詞頻、詞的位置及詞性問(wèn)題,不符合文本的實(shí)際表達(dá)。
因此,本發(fā)明致力于解決文本特征詞的詞頻、詞的位置、詞性及語(yǔ)義問(wèn)題,特征降維時(shí)在不改變文本表達(dá)的同時(shí)保留具有較強(qiáng)類別區(qū)分能力和表意性較強(qiáng)的特征詞。
發(fā)明內(nèi)容
為解決現(xiàn)有特征選擇方法準(zhǔn)確度差、特征表意不強(qiáng)的不足,本發(fā)明提出了一種基于全覆蓋粒計(jì)算的文本特征選擇方法。
一種基于全覆蓋粒計(jì)算的文本特征選擇方法,包括以下步驟:
步驟1:獲取不同類別的新聞樣本集,對(duì)新聞文本集的標(biāo)題和正文部分分別進(jìn)行預(yù)處理,所述預(yù)處理包括分詞、去停用詞和詞性標(biāo)注;
步驟2:改進(jìn)TFIDF方法成為改進(jìn)的TFIDF方法,并用改進(jìn)的TFIDF方法計(jì)算特征詞的“文檔-詞頻”概率,然后利用全覆蓋粒計(jì)算的知識(shí)約簡(jiǎn)算法進(jìn)行特征詞約簡(jiǎn);
步驟3:用bLDA主題模型計(jì)算特征詞的“文檔-詞頻”概率,聯(lián)合約簡(jiǎn)后的TFIDF算法計(jì)算的特征詞權(quán)重,得到最終的特征詞的權(quán)重并進(jìn)行聚類處理。
所述TFIDF方法的具體公式如下:
其中tj表示第m篇文檔中詞t的詞頻,N表示文檔總數(shù),nj表示包含詞t的文檔數(shù),分母為歸一化因子。
所述改進(jìn)的TFIDF方法的具體公式如下:
其中tfi,j的具體公式如下:
其中
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于太原理工大學(xué),未經(jīng)太原理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810641512.4/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 一種事件特征的獲取方法和設(shè)備
- 一種基于知識(shí)圖譜的短文本理解方法及裝置
- 一種文本挖掘的特征詞權(quán)重計(jì)算方法
- 一種特征詞提取處理方法、系統(tǒng)及服務(wù)器
- 一種對(duì)LDA微博話題特征抽取結(jié)果優(yōu)化的方法
- 一種特征詞向量獲得方法、文本分類方法及裝置
- 內(nèi)容投放系統(tǒng)中的特征詞處理方法、裝置及存儲(chǔ)介質(zhì)
- 特征詞的確定方法、裝置和服務(wù)器
- 問(wèn)題匹配方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 詞語(yǔ)糾錯(cuò)方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 粗糙集屬性約簡(jiǎn)的方法
- 一種基于變異測(cè)試和關(guān)聯(lián)規(guī)則的測(cè)試用例約簡(jiǎn)方法
- 一種基于屬性劃分的序信息并行約簡(jiǎn)方法
- 一種測(cè)試用例約簡(jiǎn)方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種不完備信息系統(tǒng)的動(dòng)態(tài)約簡(jiǎn)方法
- 一種基于動(dòng)態(tài)規(guī)劃的制造系統(tǒng)生產(chǎn)過(guò)程信息約簡(jiǎn)方法
- 一種基于直覺(jué)模糊粗糙集的屬性約簡(jiǎn)方法
- 一種快速的屬性與屬性值合一數(shù)據(jù)約簡(jiǎn)算法
- 約簡(jiǎn)殘差模塊多孔卷積架構(gòu)網(wǎng)絡(luò)及快速語(yǔ)義分割方法
- 一種基于粗糙集優(yōu)化的腦轉(zhuǎn)移瘤預(yù)后指標(biāo)約簡(jiǎn)及分類方法
- 基于互聯(lián)網(wǎng)信息的輸入法詞頻庫(kù)的生成方法和系統(tǒng)
- 基于用戶特性的詞頻庫(kù)的生成方法
- 詞典生成裝置以及信息檢索裝置
- 一種數(shù)字出版物詞匯抽取、顯示方法和系統(tǒng)
- 一種基于互聯(lián)網(wǎng)詞頻的城市認(rèn)知地圖生成方法
- 熱詞詞組提取方法和系統(tǒng)
- 文本相似度確定方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 基于詞頻的文本特征加權(quán)及短文本相似性計(jì)算方法、系統(tǒng)和介質(zhì)
- 一種輸入的方法及相關(guān)裝置
- 自動(dòng)回復(fù)生成方法、裝置及智能設(shè)備





