[發(fā)明專利]一種混合的文本特征詞匯提取方法在審
| 申請?zhí)枺?/td> | 201610864911.8 | 申請日: | 2016-09-30 |
| 公開(公告)號: | CN106610952A | 公開(公告)日: | 2017-05-03 |
| 發(fā)明(設(shè)計)人: | 金平艷 | 申請(專利權(quán))人: | 四川用聯(lián)信息技術(shù)有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 610054 四川省成*** | 國省代碼: | 四川;51 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 混合 文本 特征 詞匯 提取 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及語義網(wǎng)絡(luò)技術(shù)領(lǐng)域,具體涉及一種混合的文本特征詞匯提取方法。
背景技術(shù)
文本特征指的是最能代表文本主旨的詞匯集合,文本特征不僅可以很好的概括文本主要內(nèi)容和主旨,而且可以降低文本處理的復(fù)雜程度。目前常用的文本特征提取方法,包括詞頻-反文檔頻率方法、信息增益等方法。詞頻-反文檔頻率方法的簡單結(jié)構(gòu)并不能有效地反映詞匯或短語的重要程度和特征值的分布情況,所以TF-IDF的精度并不是很高。信息增益方法只適合用來提取一個類別的文本特征,而無法用于提取多個類別的文本特征。上述兩種文本特征提取方法沒有文本集合或沒有事先分好類別,僅僅給出一個文本,那么將無法提取這個文本的特征,這兩種方法的優(yōu)點在于計算速度快,但是計算結(jié)果的精度不高。文本挖掘與非文本挖掘的一個重要的區(qū)別就是,文本是非結(jié)構(gòu)化的數(shù)據(jù)。為了把數(shù)據(jù)挖掘的算法應(yīng)用到文本對象之上,就必須對文本進行預(yù)處理,使文本最終表示成為一種結(jié)構(gòu)化的形式,同時需要保證這種結(jié)構(gòu)化的形式能夠充分體現(xiàn)出文本對象自己的特點,突出文本對象間的差異,以便于文本的區(qū)分。文本的預(yù)處理技術(shù)對于文本挖掘來說是一個非常重要的環(huán)節(jié)??梢哉f,預(yù)處理的質(zhì)量直接影響到了最終的挖掘結(jié)果。為了滿足上述需求,本發(fā)明提供一種混合的文本特征詞匯提取方法。
發(fā)明內(nèi)容
針對于常用的文本特征提取方法都需要大量的訓(xùn)練集作為提取的前提,僅僅給出一個文本,那么將無法提取這個文本特征以及常用的文本特征提取方法精度不高的不足,本發(fā)明提供了一種混合的文本特征詞匯提取方法。
為了解決上述問題,本發(fā)明是通過以下技術(shù)方案實現(xiàn)的:
步驟1:利用中文分詞技術(shù)對文本進行分詞處理;
步驟2:根據(jù)停用表對文本詞匯進行去停用詞處理;
步驟3:根據(jù)詞匯在文本中的位置得到一系列詞匯位置權(quán)重值(α1,α2,…,αn);
步驟4:根據(jù)詞匯在文本中的詞性得到一系列詞匯詞性權(quán)重值β1、β2、β3、β4;
步驟:5:綜合上述位置與詞性,根據(jù)詞匯在文本中信息量,得到詞匯的權(quán)重 貢獻公式RE(ci,c(w1)),提取第一位c(w1)與按RE(ci,c(w1))值從大到小排列的后續(xù)m位,即為文本特征詞匯集合。
步驟6:綜合詞匯語義相似度方法,構(gòu)造詞匯語義網(wǎng)絡(luò)模型圖;
步驟7:根據(jù)ε鄰域方法,得到詞匯在整個詞匯語義網(wǎng)絡(luò)模型中的重要度,找到滿足重要度條件的文本特征詞匯集合。
本發(fā)明有益效果是:
1、此方法比傳統(tǒng)的詞頻-反文檔頻率方法得到的特征詞匯集合的準確度更高。
2、此方法克服了信息增益方法只適合用來提取一個類別的文本特征的缺點。
3、此方法在文本特征提取方法沒有文本集合或沒有事先分好類別,僅僅給出一個文本條件下,可以提取這個文本的特征。
4、為后續(xù)的文本相似度與文本聚類技術(shù)提供良好的理論基礎(chǔ)。
5、此算法具有更大的利用價值。
6、此方法精確地計算了特征詞匯中不同詞匯對文本思想的貢獻度。
7、此方法相較之前的方法條件更加嚴苛,得到的結(jié)果準確度更高。
附圖說明
圖1一種混合的文本特征詞匯提取方法的結(jié)構(gòu)流程圖
圖2為n元語法分詞算法圖解
圖3中文文本預(yù)處理過程流程圖
圖4詞匯語義網(wǎng)絡(luò)模型圖
具體實施方式
為了解決常用的文本特征提取方法都需要大量的訓(xùn)練集作為提取的前提,僅僅給出一個文本,那么將無法提取這個文本特征以及常用的文本特征提取方法精度不高的的問題,結(jié)合圖1-圖4對本發(fā)明進行了詳細說明,其具體實施步驟如下:
步驟1:利用中文分詞技術(shù)對文本進行分詞處理,其具體分詞技術(shù)過程如下:
步驟1.1:根據(jù)《分詞詞典》找到待分詞句子中與詞典中匹配的詞,把待分詞的漢字串完整的掃描一遍,在系統(tǒng)的詞典里進行查找匹配,遇到字典里有的詞就標識出來;如果詞典中不存在相關(guān)匹配,就簡單地分割出單字作為詞;直到漢字串為空。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于四川用聯(lián)信息技術(shù)有限公司,未經(jīng)四川用聯(lián)信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610864911.8/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





