[發明專利]文本相似度計算方法、裝置、設備及存儲介質在審
| 申請號: | 202110703967.6 | 申請日: | 2021-06-24 |
| 公開(公告)號: | CN113297835A | 公開(公告)日: | 2021-08-24 |
| 發明(設計)人: | 劉志慧;陸林炳;金培根;林加新;李炫 | 申請(專利權)人: | 中國平安人壽保險股份有限公司 |
| 主分類號: | G06F40/194 | 分類號: | G06F40/194;G06F40/279 |
| 代理公司: | 深圳中一聯合知識產權代理有限公司 44414 | 代理人: | 姚澤鑫 |
| 地址: | 518000 廣東省深圳市福田區福田街道益田路5033號平安*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 相似 計算方法 裝置 設備 存儲 介質 | ||
1.一種文本相似度計算方法,其特征在于,包括:
對需要進行相似度計算的第一文本和第二文本分別進行維度學習,獲取所述第一文本的文本特征和所述第二文本的文本特征,其中,文本特征中包含有多個詞特征,各詞特征均表示為含有若干個相似度計算維度的向量;
引入注意力機制,對第一文本的文本特征中所包含的詞特征進行加權處理,獲得所述第一文本加權后的文本特征,以及對第二文本的文本特征中所包含的詞特征進行加權處理,獲得所述第二文本加權后的文本特征;
根據所述第一文本加權后的文本特征和所述第二文本加權后的文本特征,計算出所述第一文本與所述第二文本之間的文本相似度。
2.根據權利要求1所述的文本相似度計算方法,其特征在于,所述對需要進行相似度計算的第一文本和第二文本分別進行維度學習,獲取所述第一文本的文本特征和所述第二文本的文本特征的步驟,包括:
對文本進行分詞及停用詞過濾處理,以提取到所述文本中所有具有實質意義的詞語,其中,所述文本為第一文本或第二文本;
使用預設的維度學習模型對目標詞語分別進行維度學習,獲得所述目標詞語對應學習到的一個或多個相似度計算維度,其中,所述目標詞語為提取到的所述文本中所有具有實質意義的詞語中的任意一個詞語;
將所述目標詞語對應學習到的每一個相似度計算維度分別映射為詞特征中的特征項,以構建獲得表征所述目標詞語的詞特征;
將所有所述具有實質意義的詞語各自對應的詞特征進行組合形成詞特征集合,以將所述詞特征集合作為所述文本的文本特征。
3.根據權利要求1所述的文本相似度計算方法,其特征在于,所述根據所述第一文本加權后的文本特征和所述第二文本加權后的文本特征,計算出所述第一文本與所述第二文本之間的文本相似度的步驟,包括:
根據所述第一文本加權后的文本特征中所包含的詞特征以及所述第二文本加權后的文本特征中所包含的詞特征,構建用于計算所述第一文本與所述第二文本之間文本相似度的向量空間模型;
基于所述向量空間模型,將所述第一文本表示為第一詞頻向量以及將所述第二文本表示為第二詞頻向量;
根據所述第一詞頻向量和所述第一文本加權后的文本特征中各詞特征對應的權重值生成用于表征所述第一文本的第一特征向量,根據所述第二詞頻向量和所述第二文本加權后的文本特征中各詞特征對應的權重值生成用于表征所述第二文本的第二特征向量;
按照余弦相似度算法,計算出所述第一特征向量和所述第二特征向量之間夾角的余弦值作為所述第一文本與所述第二文本之間的文本相似度。
4.根據權利要求1所述的文本相似度計算方法,其特征在于,所述引入注意力機制,對第一文本的文本特征進行詞特征加權處理,獲得所述第一文本加權后的文本特征,以及對第二文本的文本特征進行詞特征加權處理,獲得所述第二文本加權后的文本特征的步驟中,加權后的文本特征由以下關系式獲得:
其中,Source表示為文本;Keyi表示為文本中的第i個詞特征,且詞特征表征為包含有若干個相似度維度的向量;X表示為文本中詞特征的數量;Valuei表示為文本中的第i個詞特征對應的特征值,Similarity(Query,Keyi)表示為文本中第i個詞特征的權重;Query表示為維度學習模型自學習獲得的包含有若干相似度計算維度的向量。
5.根據權利要求1-4任意一項所述的文本相似度計算方法,其特征在于,所述對需要進行相似度計算的第一文本和第二文本分別進行維度學習,獲取所述第一文本的文本特征和所述第二文本的文本特征的步驟之前,還包括:
通過初始化學習構建用于獲取文本特征的維度學習模型,其中,所述初始化學習包括隨機初始化學習和先驗知識初始化學習中的任意一種。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國平安人壽保險股份有限公司,未經中國平安人壽保險股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110703967.6/1.html,轉載請聲明來源鉆瓜專利網。





