[發明專利]文本聚類方法及裝置在審
| 申請號: | 202011612359.6 | 申請日: | 2020-12-30 |
| 公開(公告)號: | CN112632229A | 公開(公告)日: | 2021-04-09 |
| 發明(設計)人: | 萬飛 | 申請(專利權)人: | 語聯網(武漢)信息技術有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/35;G06F40/194;G06F40/216;G06F40/284;G06K9/62 |
| 代理公司: | 北京路浩知識產權代理有限公司 11002 | 代理人: | 鄭朝然 |
| 地址: | 430206 湖北省武漢市東湖新技術開*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 方法 裝置 | ||
本發明提供一種文本聚類方法及裝置,該方法包括:對每個待聚類文本進行分詞,將每個待聚類文本中的詞語轉換為詞向量;將每個待聚類文本中所有詞語的詞向量進行融合,將融合結果作為每個待聚類文本的文檔向量;根據所述待聚類文本的文檔向量,計算任意兩個待聚類文本之間的相似度,若任意兩個待聚類文本之間的相似度大于預設閾值,則將所述任意兩個待聚類文本作為一類,若任意兩類中存在相同的待聚類文本,則將所述任意兩類中的待聚類文本歸為一類。本發明實現不僅可以最大限度地將相似度低的待聚類文本分離,使得聚類結果更加準確,還可以自動確定聚類的簇的數量。
技術領域
本發明涉及文本數據挖掘技術領域,尤其涉及一種文本聚類方法及裝置。
背景技術
隨著計算機技術的不斷發展與應用,數字化文本數據的數量不斷增長。隨著互聯網的發展,進一步加劇了文本數據的增加。在這種背景下,利用聚類技術對文本數據進行簡化分析,將文本分門別類,便于用戶在海量的網絡信息中查找有用的信息,提高網絡的服務質量。
高效快速的文本聚類技術可以將海量的文本數據分成多個有意義的類別,廣泛應用于文本挖掘與信息檢索等方面。文本聚類技術在大規模文本集的組織與瀏覽、文本集層次歸類的自動生成等方面都具有重要的應用價值。文本聚類技術的目標是將文本集合分成若干個類,要求同一類中的文本內容的相似度盡可能的大,而不同類之間相似度盡可能的小。
常見的聚類算法有K-means(K均值)聚類算法、DBSCAN(Density-Based SpatialClustering of Applications with Noise,基于密度的聚類)和BIRCH(BalancedIterative Reducing and Clustering using Hierarchies,綜合層次聚類)等。其中,K-means聚類算法是一種迭代求解的聚類分析算法,首先隨機選取K個對象作為初始的聚類中心,然后計算每個對象與各個種子聚類中心之間的距離,把每個對象分配給與其距離最近的聚類中心。每個聚類中心以及分配給聚類中心的對象代表一個聚類。每分配一個樣本,根據聚類中現有的對象重新計算聚類的聚類中心。但是采用這種聚類算法對文本進行聚類時,需要預先設定簇的數量。通常由于文本類型和數量較多,很難準確確定簇的數量,導致聚類結果不準確。
發明內容
本發明提供一種文本聚類方法及裝置,用以解決現有技術中使用K-means聚類算法對文本進行聚類需要預先設定簇的數量,導致聚類不準確的缺陷,實現自動確定聚類的簇的數量,并對文本進行準確聚類。
本發明提供一種文本聚類方法,包括:
對每個待聚類文本進行分詞,將每個待聚類文本中的詞語轉換為詞向量;
將每個待聚類文本中所有詞語的詞向量進行融合,將融合結果作為每個待聚類文本的文檔向量;
根據所述待聚類文本的文檔向量,計算任意兩個待聚類文本之間的相似度,若任意兩個待聚類文本之間的相似度大于預設閾值,則將所述任意兩個待聚類文本作為一類,若任意兩類中存在相同的待聚類文本,則將所述任意兩類中的待聚類文本歸為一類。
根據本發明提供的一種文本聚類方法,所述將每個待聚類文本中的詞語轉換為詞向量,包括:
將每個待聚類文本中的詞語輸入Word2vec模型,輸出每個待聚類文本中詞語的詞向量;其中,所述Word2vec模型為,以樣本詞語為樣本訓練得到。
根據本發明提供的一種文本聚類方法,所述將每個待聚類文本中的詞語輸入Word2vec模型,輸出每個待聚類文本中詞語的詞向量,包括:
將所有所述待聚類文本中的詞語作為所述樣本詞語,對所述Word2vec模型進行訓練;
將每個待聚類文本中的詞語輸入訓練后的Word2vec模型,輸出每個待聚類文本中詞語的詞向量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于語聯網(武漢)信息技術有限公司,未經語聯網(武漢)信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011612359.6/2.html,轉載請聲明來源鉆瓜專利網。





