[發明專利]文本相似度計算方法、裝置、設備及存儲介質在審
| 申請號: | 202110703967.6 | 申請日: | 2021-06-24 |
| 公開(公告)號: | CN113297835A | 公開(公告)日: | 2021-08-24 |
| 發明(設計)人: | 劉志慧;陸林炳;金培根;林加新;李炫 | 申請(專利權)人: | 中國平安人壽保險股份有限公司 |
| 主分類號: | G06F40/194 | 分類號: | G06F40/194;G06F40/279 |
| 代理公司: | 深圳中一聯合知識產權代理有限公司 44414 | 代理人: | 姚澤鑫 |
| 地址: | 518000 廣東省深圳市福田區福田街道益田路5033號平安*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 相似 計算方法 裝置 設備 存儲 介質 | ||
本申請適用于自然語言處理技術領域,提供一種文本相似度計算方法、裝置、設備及存儲介質,方法包括:對第一文本和第二文本分別進行維度學習,獲取第一文本的文本特征和第二文本的文本特征,其中,文本特征中包含有多個詞特征,各詞特征均表示為含有若干個相似度計算維度的向量;引入注意力機制,對第一文本的文本特征中所包含的詞特征進行加權處理,獲得第一文本加權后的文本特征,對第二文本的文本特征中所包含的詞特征進行加權處理,獲得第二文本加權后的文本特征;根據第一文本加權后的文本特征和第二文本加權后的文本特征,計算出第一文本與第二文本之間的文本相似度,計算過程綜合考慮了文本的全局信息和局部重點信息,相似度計算準確率高。
技術領域
本申請涉及自言語言處理技術領域,尤其涉及一種文本相似度計算方法、裝置、設備及存儲介質。
背景技術
文本相似技術在搜索、推薦、FAQ等領域中有著廣泛的應用。發明人發現,目前現有的深度學習文本相似度技術基本都是根據全局信息計算相似度,常見的文本相似度計算方法是對整個文本進行向量化,每種向量代表一種語義特征,每個文本最終由這多個向量組合成一個完整的向量來進行計算相似度,然而,單純的將每個詞向量合并容易導致向量維度太大,計算復雜,且內存大、速度慢,另外簡單地將各向量相加作為最終向量還容易抹平各向量的差異性,導致特征信息丟失。因而,通過根據全局信息來計算文本相似度時,無法針對文本特殊的某種特征維度或者重要的局部信息進行文本相似度的計算,大大地降低了文本相似性計算的準確度。
發明內容
有鑒于此,本申請實施例提供了一種文本相似度計算方法、裝置、設備及存儲介質,可以從多個維度綜合考慮文本的全局信息和某些重要的局部信息,以提升文本之間相似度計算的準確率。
本申請實施例的第一方面提供了一種文本相似度計算方法,包括:
對需要進行相似度計算的第一文本和第二文本分別進行維度學習,獲取所述第一文本的文本特征和所述第二文本的文本特征,其中,文本特征中包含有多個詞特征,各詞特征均表示為含有若干個相似度計算維度的向量;
引入注意力機制,對第一文本的文本特征中所包含的詞特征進行加權處理,獲得所述第一文本加權后的文本特征,以及對第二文本的文本特征中所包含的詞特征進行加權處理,獲得所述第二文本加權后的文本特征;
根據所述第一文本加權后的文本特征和所述第二文本加權后的文本特征,計算出所述第一文本與所述第二文本之間的文本相似度。
結合第一方面,在第一方面的第一種可能實現方式中,所述對需要進行相似度計算的第一文本和第二文本分別進行維度學習,獲取所述第一文本的文本特征和所述第二文本的文本特征的步驟,包括:
對文本進行分詞及停用詞過濾處理,以提取到所述文本中所有具有實質意義的詞語,其中,所述文本為第一文本或第二文本;
使用預設的維度學習模型對目標詞語分別進行維度學習,獲得所述目標詞語對應學習到的一個或多個相似度計算維度,其中,所述目標詞語為提取到的所述文本中所有具有實質意義的詞語中的任意一個詞語;
將所述目標詞語對應學習到的每一個相似度計算維度分別映射為詞特征中的特征項,以構建獲得表征所述目標詞語的詞特征;
將所有所述具有實質意義的詞語各自對應的詞特征進行組合形成詞特征集合,以將所述詞特征集合作為所述文本的文本特征。
結合第一方面,在第一方面的第二種可能實現方式中,所述根據所述第一文本加權后的文本特征和所述第二文本加權后的文本特征,計算出所述第一文本與所述第二文本之間的文本相似度的步驟,包括:
根據所述第一文本加權后的文本特征中所包含的詞特征以及所述第二文本加權后的文本特征中所包含的詞特征,構建用于計算所述第一文本與所述第二文本之間文本相似度的向量空間模型;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國平安人壽保險股份有限公司,未經中國平安人壽保險股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110703967.6/2.html,轉載請聲明來源鉆瓜專利網。





