[發明專利]一種文本聚類方法、裝置、電子設備及存儲介質在審
| 申請號: | 202011630633.2 | 申請日: | 2020-12-31 |
| 公開(公告)號: | CN112632285A | 公開(公告)日: | 2021-04-09 |
| 發明(設計)人: | 封江濤;陳家澤;周浩;李磊 | 申請(專利權)人: | 北京有竹居網絡技術有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/36;G06F16/33 |
| 代理公司: | 北京遠智匯知識產權代理有限公司 11659 | 代理人: | 范坤坤 |
| 地址: | 101299 北京市平*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 方法 裝置 電子設備 存儲 介質 | ||
本公開實施例公開了一種文本聚類方法、裝置、電子設備及存儲介質。所述方法包括:獲取待聚類的目標文本數據集;針對目標文本數據集中的每條目標文本數據,計算目標文本數據中各個詞的第一重要性分數,并基于第一重要性分數對目標文本數據中的各個詞進行排序,生成與目標文本數據對應的待搜索詞序列;針對各個待搜索詞序列,在預先構建的字典樹中搜索與待搜索詞序列適配的目標詞序列;其中,目標詞序列屬于待搜索詞序列的子序列;分別根據各個目標詞序列對對應的目標文本數據進行聚類,得到文本聚類結果。本公開實施例提供的文本聚類方法,簡化了文本聚類的過程,大大降低了文本聚類的時間復雜度,有效提高了文本聚類的效率和準確性。
技術領域
本公開實施例涉及計算機技術領域,尤其涉及一種文本聚類方法、裝置、電子設備及存儲介質。
背景技術
文本聚類是將相似的文本數據劃分到同一聚類,并將不同的文本聚類區分開來,其中,聚類也可以稱之為“簇”。聚類方法分為不同的領域,如網絡、醫學、生物學、計算機視覺、自然語言等。
現有的文本聚類方法,將文本表示為特征向量,然后通過計算文本對應的特征向量、計算文本之間的相似度;最后,根據文本之間的相似度將文本進行聚類,可以看出,現有的文本聚類方法,首先需要將文本表示為特征向量,進而才能通過特征向量計算文本之間的相似度,使得文本聚類的計算過程復雜,效率較低。
發明內容
本公開實施例提供一種文本聚類方法、裝置、電子設備及存儲介質,可以有效提高文本聚類的效率和準確性。
第一方面,本公開實施例提供了一種文本聚類方法,包括:
獲取待聚類的目標文本數據集;其中,所述目標文本數據集中包括至少一條目標文本數據;
針對所述目標文本數據集中的每條目標文本數據,計算所述目標文本數據中各個詞的第一重要性分數,并基于所述第一重要性分數對所述目標文本數據中的各個詞進行排序,生成與所述目標文本數據對應的待搜索詞序列;
針對各個待搜索詞序列,在預先構建的字典樹中搜索與所述待搜索詞序列適配的目標詞序列;其中,所述目標詞序列屬于所述待搜索詞序列的子序列;
分別根據各個所述目標詞序列對對應的目標文本數據進行聚類,得到文本聚類結果。
第二方面,本公開實施例還提供了一種文本聚類裝置,包括:
文本數據獲取模塊,用于獲取待聚類的目標文本數據集;其中,所述目標文本數據集中包括至少一條目標文本數據;
搜索詞序列生成模塊,用于針對所述目標文本數據集中的每條目標文本數據,計算所述目標文本數據中各個詞的第一重要性分數,并基于所述第一重要性分數對所述目標文本數據中的各個詞進行排序,生成與所述目標文本數據對應的待搜索詞序列;
目標詞序列確定模塊,用于針對各個待搜索詞序列,在預先構建的字典樹中搜索與所述待搜索詞序列適配的目標詞序列;其中,所述目標詞序列屬于所述待搜索詞序列的子序列;
文本聚類模塊,用于分別根據各個所述目標詞序列對對應的目標文本數據進行聚類,得到文本聚類結果。
第三方面,本公開實施例還提供了一種電子設備,所述電子設備包括:
一個或多個處理裝置;
存儲裝置,用于存儲一個或多個程序;
當所述一個或多個程序被所述一個或多個處理裝置執行,使得所述一個或多個處理裝置實現如本公開實施例所述的文本聚類方法。
第四方面,本公開實施例還提供了一種計算機可讀介質,其上存儲有計算機程序,該程序被處理裝置執行時實現如本公開實施例所述的文本聚類方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京有竹居網絡技術有限公司,未經北京有竹居網絡技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011630633.2/2.html,轉載請聲明來源鉆瓜專利網。





