[發(fā)明專利]基于語義的文檔聚類方法、系統(tǒng)及計算機設備有效
| 申請?zhí)枺?/td> | 202010576446.4 | 申請日: | 2020-06-22 |
| 公開(公告)號: | CN111680131B | 公開(公告)日: | 2022-08-12 |
| 發(fā)明(設計)人: | 余顯學 | 申請(專利權)人: | 平安銀行股份有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/35;G06F40/284;G06F40/289;G06F40/30 |
| 代理公司: | 北京英特普羅知識產權代理有限公司 11015 | 代理人: | 王勇;鄧小玲 |
| 地址: | 518001 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 語義 文檔 方法 系統(tǒng) 計算機 設備 | ||
1.一種基于語義的文檔聚類方法,其特征在于,包括:
獲取輸入文檔并對所述輸入文檔進行預處理,得到處理后的輸入文檔;
對所述處理后的輸入文檔中所包含的各個單詞進行詞頻統(tǒng)計和逆文檔頻率計算,根據計算得到的詞頻和逆文檔頻率構建詞頻-逆文檔矩陣;
將所述詞頻統(tǒng)計中所采用的單詞作為對象輸入至預先存儲的自然語言處理模型中,得到與詞頻-逆文檔矩陣所適配的相似度矩陣,所述相似度矩陣包含所述單詞之間的相似度值;
根據所述相似度矩陣對所述詞頻-逆文檔矩陣進行語義傳播,得到第二詞頻-逆文檔矩陣;
對所述第二詞頻-逆文檔矩陣進行雙向聚類,得到至少一個雙聚類簇,所述雙聚類簇包含一個文檔簇和一個單詞簇,根據所述單詞簇中所包含的特征詞對所述文檔簇中的各個文檔進行標簽賦予,并將所述文檔及對應的標簽進行關聯存儲。
2.根據權利要求1所述的基于語義的文檔聚類方法,其特征在于,所述獲取輸入文檔并對所述輸入文檔進行預處理,得到處理后的輸入文檔的步驟包括:
獲取輸入文檔;
對所述輸入文檔進行分詞處理,得到第一中間文檔;
遍歷所述分詞處理后的第一中間文檔中各個單詞,剔除其中的停用詞,得到所述處理后的輸入文檔。
3.根據權利要求1所述的基于語義的文檔聚類方法,其特征在于,所述對所述處理后的輸入文檔中所包含的各個單詞進行詞頻統(tǒng)計和逆文檔頻率計算,根據計算得到的詞頻和逆文檔頻率構建詞頻-逆文檔矩陣的步驟為:
遍歷所述輸入文檔中的各個文檔所包含的文本數據,根據所述單詞在所述文本中出現的次數以及所述文本的總詞數計算所述單詞所對應的詞頻;
根據所述輸入文檔所包含的文檔總數以及包含所述單詞的文檔數,得到所述單詞所對應的逆文檔頻率;
根據計算的到的詞頻和逆文檔頻率構建詞頻-逆文檔矩陣。
4.根據權利要求1所述的基于語義的文檔聚類方法,其特征在于,所述將所述詞頻統(tǒng)計中所采用的單詞作為對象輸入至預先存儲的自然語言處理模型包括:
將所述詞頻統(tǒng)計中所采用的單詞作為對象,并按照與所述詞頻逆-文檔矩陣中的行向元素或列向元素所映射的單詞次序相同的單詞次序,輸入至預先存儲的自然語言處理模型。
5.根據權利要求1所述的基于語義的文檔聚類方法,其特征在于,所述根據相似度矩陣對所述詞頻-逆文檔矩陣進行語義傳播,得到第二詞頻-逆文檔矩陣的計算公式為:
A′=A*Net
其中,A′為第二詞頻-逆文檔矩陣,A為詞頻-逆文檔矩陣,Net為相似度矩陣。
6.根據權利要求4所述的基于語義的文檔聚類方法,其特征在于,所述將所述詞頻統(tǒng)計中所采用的單詞作為對象輸入至預先存儲的自然語言處理模型中,得到與詞頻-逆文檔矩陣所適配的相似度矩陣,所述相似度矩陣包含所述單詞之間的相似度值的步驟為:
將所述詞頻統(tǒng)計中所采用的單詞作為對象輸入至預先存儲的自然語言處理模型中,所述自然語言處理模型預先存儲于區(qū)塊鏈中;
所述自然語言處理模型根據所述單詞的輸入次序和單詞對應的詞頻生成詞頻向量;
所述自然語言處理模型通過預設的相似度函數對不同單詞所對應的詞頻向量進行運算,計算得到所述單詞之間的相似度值;
所述自然語言處理模型通過預置的矩陣生成器將所述單詞之間的相似度值進行整合,生成與所述詞頻-逆文檔矩陣所適配的相似度矩陣;
所述相似度函數計算公式如下:
其中,單詞A向量為{x1,y1},單詞B向量為{x2,y2},cosθ為相似度值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安銀行股份有限公司,未經平安銀行股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010576446.4/1.html,轉載請聲明來源鉆瓜專利網。





