[發明專利]文本聚類方法、裝置、設備及計算機可讀存儲介質有效
| 申請號: | 202011288655.5 | 申請日: | 2020-11-17 |
| 公開(公告)號: | CN112328796B | 公開(公告)日: | 2023-06-30 |
| 發明(設計)人: | 陳夏飛 | 申請(專利權)人: | 中國平安財產保險股份有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F18/23213 |
| 代理公司: | 北京鴻元知識產權代理有限公司 11327 | 代理人: | 袁文婷;張娓娓 |
| 地址: | 518033 廣東省深圳市福田區益田路*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 方法 裝置 設備 計算機 可讀 存儲 介質 | ||
1.一種文本聚類方法,其特征在于,所述方法包括:
將至少兩個待聚類文本進行向量化處理,得到文本特征向量集;
通過第一距離計算公式,計算出所述文本特征向量集中每兩個文本特征向量之間的第一距離,得到距離矩陣;
根據所述距離矩陣,通過局部密度公式計算所述文本特征向量集中的每個文本特征向量的局部密度;
根據所述距離矩陣和每個文本特征向量的局部密度,通過第二距離公式計算所述文本特征向量集中的每個文本特征向量分別與比其自身局部密度大的文本特征向量之間的距離;其中,
所述局部密度公式為:
所述第二距離公式為:
其中,{x1,x2......,xn}為文本特征向量集,Is={1,2,...,n}為每個文本特征向量對應序號的集合,xn為文本特征向量,ρi為與xi的距離小于dc的文本特征向量的個數即xi的局部密度,dc為截斷距離,dij為xi與xj的第一距離,(j≠i,j∈Is),為局部密度值大于xi的文本特征向量的集和,若不為空,則選取中與xi的距離的最小值,若為空,則選取中與xi的距離的最大值;
將所述每個文本特征向量的局部密度以及每個文本特征向量分別與比其自身局部密度大的文本特征向量之間的距離帶入第一簇中心判斷公式,并將得到的數值進行降序排列,得到第一待用數集;其中,所述第一簇中心判斷公式為:γi=ρiδi,i∈Is
將所述第一待用數集依次帶入第二簇中心判斷公式,根據所述第二簇中心判斷公式從所述文本特征向量集中選取初始簇中心向量和確定所述文本特征向量集中初始簇的數量;其中,所述第二簇中心判斷公式為
其中,m為γi所對應的序號,M為取最大值時,m的數值,將m左側的γi所對應的點確定為初始簇中心的文本特征向量,m左側的γi的個數即為所述文本特征向量集中初始簇的數量;根據所述初始簇中心向量和所述初始簇的數量,通過k均值聚類算法對所述文本特征向量集進行聚類處理,得到聚類結果。
2.根據權利要求1所述的文本聚類方法,其特征在于,所述將至少兩個待聚類文本進行向量化處理,得到文本特征向量集包括:
通過存儲于區塊鏈中的預設特征向量轉化模型對所述待聚類文本進行向量化處理,得到所述文本特征向量集;其中,
所述預設特征向量轉化模型包括:用于獲取所述待聚類文本的文本輸入層;用于對所述文本輸入層獲取的待聚類文本中的語句進行特征提取的特征提取層;用于將所述特征提取層輸出的語句特征按照語句在所述待聚類文本中的前后順序組成該待聚類文本的文本特征向量組合層;以及將所述文本特征向量組合層得到的文本特征向量以數集的形式輸出的文本特征向量集輸出層。
3.根據權利要求1所述的文本聚類方法,其特征在于,在將所述每個文本特征向量的局部密度以及每個文本特征向量分別與比其自身局部密度大的文本特征向量之間的距離帶入第一簇中心判斷公式,并將得到的數值進行降序排列,得到第一待用數集之前,還包括:
將每個文本特征向量的局部密度和每個文本特征向量分別與比其自身局部密度大的文本特征向量之間的距離對應的值進行歸一化處理。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國平安財產保險股份有限公司,未經中國平安財產保險股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011288655.5/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種無紡布復合板的制備方法
- 下一篇:一種防晃動桶裝飲水機





