[發明專利]一種文本聚類的方法及裝置在審
| 申請號: | 202010038156.4 | 申請日: | 2020-01-14 |
| 公開(公告)號: | CN111274388A | 公開(公告)日: | 2020-06-12 |
| 發明(設計)人: | 陳瑞清;許開河;王少軍 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/284;G06K9/62 |
| 代理公司: | 北京中強智尚知識產權代理有限公司 11448 | 代理人: | 黃耀威 |
| 地址: | 518000 廣東省深圳市福田街*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 方法 裝置 | ||
1.一種文本聚類的方法,其特征在于,包括:
根據預訓練BERT模型,提取待分類文本中每個句子的原始特征向量;
計算所述待分類文本中的當前句子與所述待分類文本中其他句子之間的歐式距離;
采用預置注意力機制算法,計算所述待分類文本中每個句子與所述待分類文本中其他句子相比的注意力特征,所述預置注意力機制算法的計算公式為其中Qi是當前句子的原始特征向量,K是所述當前句子的被考察句子的原始特征向量,d是所述當前句子與所述被考察句子的歐式距離,所述當前句子和所述被考察句子都屬于所述待分類文本;
根據所述注意力特征,采用K-means聚類算法,將所述待分類文本進行聚類。
2.如權利要求1所述的方法,其特征在于,所述根據預訓練BERT模型,提取待分類文本中每個句子的原始特征向量,包括:
獲取所述預訓練BERT模型,并啟動BERT服務;
調用所述BERT服務,生成所述待分類文本中每個句子的原始特征向量。
3.如權利要求1所述的方法,其特征在于,所述采用預置注意力機制算法,計算所述待分類文本中每個句子與所述待分類文本中其他句子相比的注意力特征之前,所述方法還包括:
統計所述待分類文本中的句子總數;
計算所述當前句子的待注意句子數量,所述待注意句子數量是預置比例與所述句子總數的乘積;
按照所述歐式距離從小到大的順序,選取所述待注意句子數量的所述歐式距離所對應的待聚類句子;
所述采用預置注意力機制算法,計算所述待分類文本中每個句子與所述待分類文本中其他句子相比的注意力特征,包括:
采用預置注意力機制算法,計算所述待分類文本中每個句子與所述待聚類句子中其他句子相比的注意力特征。
4.如權利要求3所述的方法,其特征在于,所述根據所述注意力特征,采用K-means聚類算法,將所述待分類文本進行聚類,包括:
在所述注意力特征中,選取預置數量的質心組,每個所述質心組中包括待分組數的所述注意力特征的聚類質心,所述預置數量是從所述句子總數中隨機選取所述待分組數的組合數;
根據所述注意力特征與所述聚類質心,計算所述每個質心組的類簇平方和;
根據最小的所述類簇平方和對應的質心組,將所述待分類文本進行聚類。
5.如權利要求4所述的方法,其特征在于,所述根據所述注意力特征與所述聚類質心,計算所述每個質心組的類簇平方和,包括:
依次選取每個所述質心組中的聚類質心,將所述注意力特征聚類至所述聚類質心所屬的質心類簇;
依次計算所述質心類簇的質心平方和,所述質心平方和是所述質心類簇中每個注意力特征和所述質心類簇的聚類質心之間的特征距離的平方和;
累加所述質心平方和生成所述類簇平方和。
6.如權利要求5所述的方法,其特征在于,所述依次選取每個所述質心組中的聚類質心,將所述注意力特征聚類至所述聚類質心所屬的質心類簇,包括:
依次計算每個所述質心組中的聚類質心,與每個所述注意力特征之間的特征距離;
依次在每個所述質心組中,查找所述注意力特征的所述特征距離中的最小距離,將所述注意力特征聚合至所述最小距離對應的所述聚類質心所屬的質心類簇。
7.一種文本聚類的裝置,其特征在于,包括:
提取模塊,用于根據預訓練BERT模型,提取待分類文本中每個句子的原始特征向量;
第一計算模塊,用于計算所述待分類文本中的當前句子與所述待分類文本中其他句子之間的歐式距離;
第二計算模塊,用于采用預置注意力機制算法,計算所述待分類文本中每個句子與所述待分類文本中其他句子相比的注意力特征,所述預置注意力機制算法的計算公式為其中Qi是當前句子的原始特征向量,K是所述當前句子的被考察句子的原始特征向量,d是所述當前句子與所述被考察句子的歐式距離,所述當前句子和所述被考察句子都屬于所述待分類文本;
聚類模塊,用于根據所述注意力特征,采用K-means聚類算法,將所述待分類文本進行聚類。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010038156.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種USB Hub及控制方法
- 下一篇:一種確定新聞傳播效果的方法和系統





