[發明專利]文本聚類方法、裝置、設備及計算機可讀存儲介質有效
| 申請號: | 202011288655.5 | 申請日: | 2020-11-17 |
| 公開(公告)號: | CN112328796B | 公開(公告)日: | 2023-06-30 |
| 發明(設計)人: | 陳夏飛 | 申請(專利權)人: | 中國平安財產保險股份有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F18/23213 |
| 代理公司: | 北京鴻元知識產權代理有限公司 11327 | 代理人: | 袁文婷;張娓娓 |
| 地址: | 518033 廣東省深圳市福田區益田路*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 方法 裝置 設備 計算機 可讀 存儲 介質 | ||
本發明涉及人工智能領域,揭露一種文本聚類方法,包括:將至少兩個待聚類文本進行向量化處理,得到文本特征向量集;通過密度峰值算法,從文本特征向量集中選取初始簇中心向量和確定文本特征向量集中初始簇的數量;根據初始簇中心向量和初始簇的數量,通過k均值聚類算法對文本特征向量集進行聚類處理,得到聚類結果。本發明還涉及區塊鏈技術,所述預設特征向量轉化模型存儲于區塊鏈中。本發明能夠提高文本聚類的準確性。
技術領域
本發明涉及人工智能領域,尤其涉及一種文本聚類的方法、裝置、電子設備及計算機可讀存儲介質。
背景技術
文本聚類分析是一種無監督機器學習算法,它的目標是將相似的文本歸到同一個簇中,將不相似的文本歸到不同的簇中。通過對文本進行聚類,我們可以將大量文本信息組成少數有意義的簇,從而達到協助人們能夠更好地對大規模文本進行理解。
目前的文本聚類方法主要分為文本特征表示和文本聚類模型兩部分。Bert是目前常用的預訓練的語言模型表示,常用句向量表示方法是將BERT(語義表示模型)輸出層進行平均或直接使用[CLS](共語言規范)的輸出,這種方式得到的向量相似度計算值都較高,無法直接用于下游文本聚類。即使獲得的向量相似度較低,能夠直接使用傳統聚類方法進行聚類,但由于常用的聚類方法通常需要進行預設對應的K值,而K值的控制嚴重影響聚類整體的效果,如果K很小,則聚類可能不徹底,即隔著很遠的兩波點也被聚為一類,會使類內距離變得很大;相反的,過大的K雖然會降低類內間距,但有時候分得過細會對數據的泛化性造成損害,目前的聚類方法的聚類效果較差。
發明內容
本發明提供一種文本聚類方法、裝置、電子設備及計算機可讀存儲介質,其主要目的在于能夠提高文本聚類的準確性。
第一方面,為實現上述目的,本發明提供的一種文本聚類方法,包括:將至少兩個待聚類文本進行向量化處理,得到文本特征向量集;
通過密度峰值算法,從所述文本特征向量集中選取初始簇中心向量和確定所述文本特征向量集中初始簇的數量;
根據所述初始簇中心向量和所述初始簇的數量,通過k均值聚類算法對所述文本特征向量集進行聚類處理,得到聚類結果。
第二方面,為了解決上述問題,本發明還提供一種文本聚類裝置,所述裝置包括:
文本向量化處理模塊,用于將至少兩個待聚類文本進行向量化處理,得到文本特征向量集;
初始簇中心選取模塊,用于通過密度峰值算法,從所述文本特征向量集中選取初始簇中心向量和確定所述文本特征向量集中初始簇的數量;
聚類模塊,用于根據所述初始簇中心向量和所述初始簇的數量,通過k均值聚類算法對所述文本特征向量集進行聚類處理,得到聚類結果。
第三方面,為了解決上述問題,本發明還提供一種電子設備,所述電子設備包括:
存儲器,存儲至少一個指令;及
處理器,執行所述存儲器中存儲的指令以實現上述所述的文本聚類方法中的步驟。
第四方面,為了解決上述問題,本發明還提供一種計算機可讀存儲介質,所述計算機可讀存儲介質中存儲有至少一個指令,所述至少一個指令被電子設備中的處理器執行以實現上述所述的文本聚類方法中的步驟。
本發明提出的文本聚類方法、裝置、電子設備及計算機可讀存儲介質,通過將至少兩個待聚類文本進行向量化處理,得到文本特征向量集;再通過密度峰值算法,從文本特征向量集中選取初始簇中心向量和確定文本特征向量集中初始簇的數量;最后根據初始簇中心向量和初始簇的數量,通過k均值聚類算法對文本特征向量集進行聚類處理,得到聚類結果。有效改善了現有的BERT模型,使后續聚類距離刻畫更準確;在進行聚類之前,先選取較為準確的初始簇中心和確定初始簇的數量,提高聚類的準確度。
附圖說明
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國平安財產保險股份有限公司,未經中國平安財產保險股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011288655.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種無紡布復合板的制備方法
- 下一篇:一種防晃動桶裝飲水機





