[發明專利]一種基于密度的文本聚類方法在審
| 申請號: | 201710130909.2 | 申請日: | 2017-03-07 |
| 公開(公告)號: | CN106934005A | 公開(公告)日: | 2017-07-07 |
| 發明(設計)人: | 周應華;李春婷 | 申請(專利權)人: | 重慶郵電大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 400065 重慶*** | 國省代碼: | 重慶;85 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 密度 文本 方法 | ||
技術領域
本發明涉及計算機文本信息處理領域,尤其涉及一種關鍵詞提取和語義分析的方法。
背景技術
近年來,隨著網絡的大規模普及和企業信息化程度的提高,各種資源呈爆炸式增長,然而,大部分信息是存儲在文本數據庫中的,對于這種半結構或無結構化數據,能夠獲取特定內容信息的手段卻較弱,導致信息搜尋困難和信息利用率低下。由此,文本挖掘、信息過濾和信息檢索等方面的研究出現了前所未有的高潮。快速并高質量的文本聚類技術可以將大量文本信息組成少數有意義的簇,并使同一簇中的文本信息之間具有較高的相似度,而不同簇之間的文本差別較大,從而通過聚類驅動的降維或權值調整來改善檢索性能,方便人們對文本信息的利用。聚類技術已成為文本信息挖掘技術中的核心技術,其工作效率與效果直接關系到文本信息處理的理想程度。
發明內容
基于背景技術存在的問題,本發明提出了一種基于語義分析的文本聚類系統及方法,根據語義分析對文本進行聚類,簡化了聚類算法的工作量,提高工作效率,聚類的結果更加理想。
目前多數文本聚類算法都是以向量空間模型(VSM)為基礎的。這種文本表示方法假設詞語間是獨立的,沒有從語義上去分析文檔內容,因而不能準確計算文檔間的相似度,影響了聚類的精度,但卻引發了高維稀疏的問題。而且,基于向量空間模型的聚類算法都沒有很好地解決文本數據所特有的兩個自然語言問題:近義詞和多義詞。所有這些問題都極大干擾了文本聚類算法的效率和準確性,使文本聚類的性能下降。
本發明提出的一種基于密度的文本聚類方法,包括下列步驟:
步驟A,根據數據集對文本進行分詞、去除停用詞操作;
步驟B,根據得到的文本分詞按照名詞、動詞、形容詞三種詞性和詞頻來對分詞提取相應關鍵詞;
步驟C,根據得到的關鍵詞采用改進的知網詞匯相似度算法計算文本的關鍵詞相似度;
步驟D,根據得到的文本關鍵詞相似度計算文本的相似度;
步驟E,根據得到的文本相似度對文本采用基于密度的聚類算法對文本進行聚類;
所述步驟A中,對文本采用中科院計算所的NLPIR漢語詞法分析系統即ICTCLAS2014分詞系統,對文本分詞及詞性進行標注。NLPIR主要功能包括中文分詞、詞性標注、新詞識別,同時支持用戶詞典,是目前較好的中文詞法分析系統。
所述步驟A包括對得到的分詞停用詞過濾,它通過構造一個停用詞表,在文本分詞后,刪除停用詞表中收錄的詞匯,以過濾停用詞。
所述步驟B包括對文本分詞按照名詞、動詞和形容詞三種詞性進行篩選,其中名詞和形容詞各占0.4的比重,形容詞占0.2的比重。如果詞匯i的詞性不屬于三大詞性中的任何一類,則其詞匯詞性權重geni為0,不用對其計算,以提高計算效率。
所述步驟B包括對得到的文本分詞進行詞頻計算,其公式為詞匯i的詞頻
其中wni表示詞匯i在文本中出現的詞數。
所述步驟B包括對得到的分詞進行關鍵詞權重計算函數設計如下:
weighti=geni*frei(2)
其中geni表示詞匯i其詞性權重,frei為詞匯的詞頻。
所述步驟C包括對得到的關鍵詞采用改進的知網詞匯相似度算法計算文本的關鍵詞相似度,其中《知網》收入的詞語主要歸為兩類,一類是實詞,一類是虛詞。步驟B中只對名詞、動詞和形容詞這些實詞進行處理,虛詞在代表文章主旨方面起到的作用很小,這里只對實詞計算其詞匯相似度,像代表虛詞的關系義原和符號義原相似度的計算就不作處理。
所述步驟C中,知網詞匯語義相似度計算,對于兩個漢語詞語W1和W2,如果W1有n個義項(概念):S11,S12,……,S1n,W2有m個義項(概念):S21,S22,……,S2m,我們規定,W1和W2的相似度各個概念的相似度之最大值,也就是說:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶郵電大學,未經重慶郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710130909.2/2.html,轉載請聲明來源鉆瓜專利網。





