[發明專利]無監督文本聚類方法、裝置、計算機設備、存儲介質在審
| 申請號: | 202210604926.6 | 申請日: | 2022-05-31 |
| 公開(公告)號: | CN115017982A | 公開(公告)日: | 2022-09-06 |
| 發明(設計)人: | 毛宇;黃凱;林昊;徐偉;張文鋒;納穎泉 | 申請(專利權)人: | 招聯消費金融有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06F16/35;G06F16/335;G06N3/08 |
| 代理公司: | 華進聯合專利商標代理有限公司 44224 | 代理人: | 方高明 |
| 地址: | 518000 廣東省深圳市前海深港合作區前*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 監督 文本 方法 裝置 計算機 設備 存儲 介質 | ||
本公開涉及一種無監督文本聚類方法、裝置、計算機設備、存儲介質。所述方法包括:獲取文本數據集;將所述文本數據集中待聚類文本數據和所述文本數據集輸入至粗排模型中,通過所述粗排模型得到多個相似文本數據,所述相似文本數據是所述文本數據集中與所述待聚類文本數據相似的文本數據;通過相似度算法計算所述待聚類文本數據和每個所述相似文本數據的評價相似度;根據所述評價相似度和預先設置的相似度閾值對所述待聚類文本數據和多個所述相似文本數據進行聚類。采用本方法能夠在聚類結果中量化簇內文本之間的相關性。
技術領域
本公開涉及文本處理技術領域,特別是涉及一種無監督文本聚類方法、裝置、計算機設備、存儲介質。
背景技術
隨著互聯網技術和人工智能技術的發展,各行各業都產生了大量文本數據,通過對這些文本數據的分析處理,如文本聚類。
目前傳統的文本聚類通常是選擇一種文本編碼方式,將文本轉換為數值矩陣,然后通過聚類算法進行聚類。但是目前主流的文本編碼方式通常都存在很多缺陷,如wordembedding通過窗口滑動利用淺層神經網絡尋找相近的相關詞概率。該方法得到文本的句向量是通過每個詞向量取平均得到,而該過程得到的句向量在多維度空間表征中是有信息損失的,因此它無法很合理表示文本句向量,因此下游的聚類結果也會有很大的偏差。一般聚類算法得到的聚類結果是若干簇,該結果無法量化簇內文本之間的相關性。
發明內容
基于此,有必要針對上述技術問題,提供一種能夠在聚類結果中量化簇內文本之間的相關性的無監督文本聚類方法、裝置、計算機設備、存儲介質。
第一方面,本公開提供了一種無監督文本聚類方法。所述方法包括:
獲取文本數據集;
將所述文本數據集中待聚類文本數據和所述文本數據集輸入至粗排模型中,通過所述粗排模型得到多個相似文本數據,所述相似文本數據是所述文本數據集中與所述待聚類文本數據相似的文本數據;
通過相似度算法計算所述待聚類文本數據和每個所述相似文本數據的評價相似度;
根據所述評價相似度和預先設置的相似度閾值對所述待聚類文本數據和多個所述相似文本數據進行聚類。
在其中一個實施例中,所述通過所述粗排模型得到多個相似文本數據,包括:
通過所述粗排模型輸出若干文本數據,所述若干文本數據是所述文本數據集中與所述待聚類文本數據按照相關性排序后確定的;
根據預先設置的排名閾值選擇所述若干文本數據,得到所述文本數據集中與所述待聚類文本數據對應的多個相似文本數據;
或,
通過所述粗排模型和預先設置的排名閾值輸出多個相似文本數據。
在其中一個實施例中,所述相似度算法包括:Jaccard算法、BLEU算法和Rouge算法;通過所述Rouge算法計算所述待聚類文本數據和每個所述相似文本數據之間的評價相似度,包括:
通過Rouge-N和Rouge-L計算所述待聚類文本數據和每個所述相似文本數據之間的評價相似度。
在其中一個實施例中,所述通過Rouge-N和Rouge-L所述待聚類文本數據和每個所述相似文本數據之間的評價相似度,包括:
通過所述Rouge-N計算所述待聚類文本數據和每個所述相似文本數據之間的第一評價指標和第二評價指標,所述第一評價指標表征單字符之間的相似度,所述第二評價指標表征雙字符之間的相似度;
通過所述Rouge-L計算所述待聚類文本數據和每個所述相似文本數據之間的第三評價指標,所述第三評價指標表征最長公共字符序列之間的相似度;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于招聯消費金融有限公司,未經招聯消費金融有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210604926.6/2.html,轉載請聲明來源鉆瓜專利網。





