[發明專利]一種文本聚類的方法及裝置在審
| 申請號: | 202010038156.4 | 申請日: | 2020-01-14 |
| 公開(公告)號: | CN111274388A | 公開(公告)日: | 2020-06-12 |
| 發明(設計)人: | 陳瑞清;許開河;王少軍 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/284;G06K9/62 |
| 代理公司: | 北京中強智尚知識產權代理有限公司 11448 | 代理人: | 黃耀威 |
| 地址: | 518000 廣東省深圳市福田街*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 方法 裝置 | ||
本發明公開了一種文本聚類的方法及裝置,涉及數據處理技術領域,為解決現有技術中實際特征相似的文本不能實現聚類的問題而發明。該方法主要包括:根據預訓練BERT模型,提取待分類文本中每個句子的原始特征向量;計算所述待分類文本中的當前句子與所述待分類文本中其他句子之間的歐式距離;采用預置注意力機制算法,計算所述待分類文本中每個句子與所述待分類文本中其他句子相比的注意力特征;根據所述注意力特征,采用K?means聚類算法,將所述待分類文本進行聚類。本發明主要應用于文本聚類的過程中。
技術領域
本發明涉及一種數據處理技術領域,特別是涉及一種文本聚類的方法及裝置。
背景技術
當今互聯網技術的高速普及和社交媒體的廣泛使用,促使文本數據數量飛速增長,文本數據如評價信息、客戶咨詢問題、微博評論等。通過文本聚類可以區分不同的消費群體,也可以提取并概括數據中的特點,通常用于文檔聚類、信息過濾、信息推薦或優化搜索等等。
通常聚類算法分為劃分法、層次法、基于密度的方法、基于網格的方法、基于模型的方法。通常的文本聚類方法包括使用對文本分詞、去停用詞、使用詞頻和逆向詞頻的方式得到文本的特征,然后基于特征進行聚類。現有技術中,采用循環神經網絡和注意力機制獲取多個待分類短文本的語義特征向量,然后利用聚類算法根據N個初始聚類中心點,對多個待分類短文本的語義特征向量行迭代聚類,將多個待分類短文本的語義特征向量分為多個短文本類。其中,語義特征向量包括上下文局部特征、全局特征。
上述聚類方法在特征提取上存在信息丟失的問題,而導致實際特征相似的文本不能實現聚類的問題。
發明內容
有鑒于此,本發明提供一種文本聚類的方法及裝置,主要目的在于解決現有技術中實際特征相似的文本不能實現聚類的問題。
依據本發明一個方面,提供了一種文本聚類的方法,包括:
根據預訓練BERT模型,提取待分類文本中每個句子的原始特征向量;
計算所述待分類文本中的當前句子與所述待分類文本中其他句子之間的歐式距離;
采用預置注意力機制算法,計算所述待分類文本中每個句子與所述待分類文本中其他句子相比的注意力特征,所述預置注意力機制算法的計算公式為其中Qi是當前句子的原始特征向量,K是所述當前句子的被考察句子的原始特征向量,d是所述當前句子與所述被考察句子的歐式距離,所述當前句子和所述被考察句子都屬于所述待分類文本;
根據所述注意力特征,采用K-means聚類算法,將所述待分類文本進行聚類。
依據本發明另一個方面,提供了一種文本聚類的裝置,包括:
提取模塊,用于根據預訓練BERT模型,提取待分類文本中每個句子的原始特征向量;
第一計算模塊,用于計算所述待分類文本中的當前句子與所述待分類文本中其他句子之間的歐式距離;
第二計算模塊,用于采用預置注意力機制算法,計算所述待分類文本中每個句子與所述待分類文本中其他句子相比的注意力特征,所述預置注意力機制算法的計算公式為其中Qi是當前句子的原始特征向量,K是所述當前句子的被考察句子的原始特征向量,d是所述當前句子與所述被考察句子的歐式距離,所述當前句子和所述被考察句子都屬于所述待分類文本;
聚類模塊,用于根據所述注意力特征,采用K-means聚類算法,將所述待分類文本進行聚類。
根據本發明的又一方面,提供了一種計算機存儲介質,所述計算機存儲介質中存儲有至少一可執行指令,所述可執行指令使處理器執行如上述文本聚類的方法對應的操作。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010038156.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種USB Hub及控制方法
- 下一篇:一種確定新聞傳播效果的方法和系統





