[發(fā)明專利]文本聚類方法、電子裝置及存儲介質有效
| 申請?zhí)枺?/td> | 201910627405.0 | 申請日: | 2019-07-11 |
| 公開(公告)號: | CN110347835B | 公開(公告)日: | 2021-08-24 |
| 發(fā)明(設計)人: | 張蓓;劉屹;徐君妍;劉濂;邵嘉琦;徐楠;沈志勇;萬正勇 | 申請(專利權)人: | 招商局金融科技有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/36;G06Q40/08 |
| 代理公司: | 深圳市沃德知識產權代理事務所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
| 地址: | 518000 廣東省深圳市福田區(qū)華富街*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 方法 電子 裝置 存儲 介質 | ||
1.一種文本聚類方法,應用于電子裝置,其特征在于,該方法包括:
步驟S1,接收用戶發(fā)出的文本聚類指令,所述指令中包括待聚類語料;
步驟S2,利用所述待聚類語料對預先確定的初始語言模型進行預訓練,得到目標語言模型;
步驟S3,將所述待聚類語料中每個文本依次輸入所述目標語言模型中進行特征提取,根據模型輸出結果得到所述待聚類語料中每個文本的句向量,生成待聚類句向量集合;及
步驟S4,利用基于密度的聚類算法,基于所述待聚類句向量集合對所述待聚類語料進行聚類,得到各類別對應的句向量,并確定所述待聚類語料的聚類結果,包括:
獲取所述待聚類語料對應的待聚類句向量集合作為第一樣本集、預設的第一鄰域參數組合及樣本距離度量方式,基于第一鄰域參數組合得到第一聚類結果;
從所述第一樣本集中篩除所述第一聚類結果中的所有樣本,將余下的樣本作為第二樣本集,基于預設的調整規(guī)則對所述第一鄰域參數組合進行調整,得到第二鄰域參數組合,基于所述第二鄰域參數組合對所述第二樣本集中的樣本進行聚類得到第二聚類結果;
從所述第二樣本集中篩除所述第二聚類結果中的所有樣本,將余下的樣本作為第三樣本集,基于預設的調整規(guī)則對所述第二鄰域參數組合進行調整,得到第三鄰域參數組合,基于所述第三鄰域參數組合對所述第三樣本集中的樣本進行聚類得到第三聚類結果,以此類推,得到目標聚類結果;
所述預設的調整規(guī)則包括:獲取第一鄰域參數組合(ε,Min_sample),在所述第一鄰域參數組合中的參數ε上增加第一預設增量,直到調整后的ε大于第一預設閾值,停止調參,在所述第一鄰域參數組合中的參數Min_sample上減少第二預設增量,直到調整后的Min_sample小于2,其中,參數ε描述某一樣本的鄰域距離閾值,參數Min_sample描述某一樣本的距離為ε的鄰域中樣本個數的閾值。
2.根據權利要求1所述的文本聚類方法,其特征在于,所述預先確定的初始語言模型為BERT(Bidirectional Encoder Representations from Transformers)模型,所述BERT模型中的Next Sentence Prediction神經網絡中池化層的維度為256。
3.根據權利要求1所述的文本聚類方法,其特征在于,所述根據模型輸出結果得到所述待聚類語料中每個文本的句向量,包括:
取模型輸出結果中每個文本的CLS和該文本中每個字的特征表示,計算平均值,將得到的定長向量作為該文本的句向量;或者
取模型輸出結果中每個文本的CLS和該文本中每個字的特征表示,進行加權求和并計算平均值,將得到的定長向量作為該文本的句向量。
4.根據權利要求3所述的文本聚類方法,其特征在于,所述步驟S3還包括:
降維步驟:利用預設降維方法對所述待聚類句向量集合中的每個句向量進行降維,將降維后的句向量作為所述待聚類語料中各文本對應的句向量。
5.根據權利要求1所述的文本聚類方法,其特征在于,所述步驟S4還包括:
每完成一次聚類,基于所述樣本距離度量方式計算剩余樣本之間的余弦相似度,當所有剩余的樣本之間的余弦相似度都小于第二預設閾值時,停止聚類,并將上一次聚類的結果作為最終聚類結果。
6.根據權利要求1所述的文本聚類方法,其特征在于,該方法還包括:
根據所述聚類結果對所述待聚類句向量集合中各句向量標注標簽,生成用于訓練分類模型的樣本數據;
利用所述樣本數據對所述目標語言模型進行微調,在所述目標語言模型的神經網絡后增加一層全連接層進行訓練,得到文本分類模型;
獲取新的待分類文本,將所述待分類文本輸入所述文本分類模型中,根據模型輸出結果確定所述待分類文本對應的類別。
7.一種電子裝置,其特征在于,該裝置包括存儲器及處理器,所述存儲器中存儲有可在所述處理器上運行的文本聚類程序,所述文本聚類程序被所述處理器執(zhí)行時可實現如權利要求1至6中任意一項所述的文本聚類方法的步驟。
8.一種計算機可讀存儲介質,其特征在于,所述計算機可讀存儲介質中包括文本聚類程序,所述文本聚類程序被處理器執(zhí)行時,可實現如權利要求1至6中任意一項所述的文本聚類方法的步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于招商局金融科技有限公司,未經招商局金融科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910627405.0/1.html,轉載請聲明來源鉆瓜專利網。





