[發明專利]文本聚類方法、電子裝置及存儲介質有效
| 申請號: | 201910627405.0 | 申請日: | 2019-07-11 |
| 公開(公告)號: | CN110347835B | 公開(公告)日: | 2021-08-24 |
| 發明(設計)人: | 張蓓;劉屹;徐君妍;劉濂;邵嘉琦;徐楠;沈志勇;萬正勇 | 申請(專利權)人: | 招商局金融科技有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/36;G06Q40/08 |
| 代理公司: | 深圳市沃德知識產權代理事務所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
| 地址: | 518000 廣東省深圳市福田區華富街*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 方法 電子 裝置 存儲 介質 | ||
本發明揭露了一種文本聚類方法,該方法包括:接收用戶發出的文本聚類指令;利用所述待聚類語料對預先確定的初始語言模型進行預訓練,得到目標語言模型;將所述待聚類語料中每個文本依次輸入所述目標語言模型中進行特征提取,根據模型輸出結果得到所述待聚類語料中每個文本的句向量,生成待聚類句向量集合;及,利用預設聚類算法,基于所述待聚類句向量集合對所述待聚類語料進行聚類,得到各類別對應的句向量,并確定所述待聚類語料的聚類結果。本發明還揭露了一種電子裝置及計算機存儲介質。利用本發明,可提高文本聚類的準確性及效率。
技術領域
本發明涉及互聯網技術領域,尤其涉及一種文本聚類方法、電子裝置及計算機可讀存儲介質。
背景技術
隨著人工智能在生活應用中的普及,自然語言處理的發展也日趨重要,由于大多語料都沒有標簽以及標注的高成本,對文本進行無監督聚類就顯得尤為重要。
然而,對于專業領域語料范疇內的文本,現有技術對這類文本的聚類效果并不好。以保險常見問題為例,用戶咨詢保險問題屬于保險類專有領域語料范疇,存在數據規模小、表達方式多樣性、專業難解釋性、噪音數據多(例如,廣告)等特性,對于該類文本,現有的聚類方案存在以下缺陷:
1)在目前主流的生成句向量的方法中,利用已有的詞向量求和平均會忽略掉文本的上下文信息,而諸如sent2vec、doc2vec模型需要大規模、高質量的訓練語料,用戶保險咨詢類語料并不滿足條件;
2)對于聚類算法,由于保險問題的復雜性和多樣性,難以定義其類別數量,無法準確選取參數;
鑒于以上缺陷,大幅度降低了文本聚類的效率及準確性。因此,如何快速、準確地對文本進行聚類成為一個亟待解決的技術問題。
發明內容
鑒于以上內容,本發明提供一種文本聚類方法、電子裝置及計算機可讀存儲介質,其主要目的在于提高文本聚類的準確性及效率。
為實現上述目的,本發明提供一種文本聚類方法,該方法包括:
步驟S1,接收用戶發出的文本聚類指令,所述指令中包括待聚類語料;
步驟S2,利用所述待聚類語料對預先確定的初始語言模型進行預訓練,得到目標語言模型;
步驟S3,將所述待聚類語料中每個文本依次輸入所述目標語言模型中進行特征提取,根據模型輸出結果得到所述待聚類語料中每個文本的句向量,生成待聚類句向量集合;及
步驟S4,利用預設聚類算法,基于所述待聚類句向量集合對所述待聚類語料進行聚類,得到各類別對應的句向量,并確定所述待聚類語料的聚類結果。
此外,為實現上述目的,本發明還提供一種電子裝置,該裝置包括:存儲器、處理器,所述存儲器中存儲有可在所述處理器上運行的文本聚類程序,所述文本聚類程序被所述處理器執行時可實現如上所述文本聚類方法中的任意步驟。
此外,為實現上述目的,本發明還提供一種計算機可讀存儲介質,所述計算機可讀存儲介質中包括文本聚類程序,所述文本聚類程序被處理器執行時,可實現如上所述文本聚類方法中的任意步驟。
本發明提出的文本聚類方法、電子裝置及計算機可讀存儲介質,1)利用待聚類語料對初始語言模型進行預訓練后,可以使目標語言模型更好地捕捉到待聚類語料的特有信息,為準確提取特征打下基礎;2)通過在模型預訓練過程中,調整模型的參數,提高模型預訓練過程的效率;3)在生成句向量的過程中,通過綜合考慮文本的句子標簽及每個子的向量表示,更準確地生成文本的句向量,并對生成的句向量進行降維,為后續實現快速、準確地聚類奠定基礎;4)在聚類過程中,并非單一地選取一組參數得到聚類結果,而是通過逐步調參得到聚類結果,不斷提純,不斷迭代,得到更好的聚類效果。綜上,本發明能有效地提高文本聚類的準確率及效率。
附圖說明
圖1為本發明文本聚類方法較佳實施例的流程圖;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于招商局金融科技有限公司,未經招商局金融科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910627405.0/2.html,轉載請聲明來源鉆瓜專利網。





