[發明專利]文本相似性的確定方法、裝置、設備及介質有效
| 申請號: | 202011043848.4 | 申請日: | 2020-09-28 |
| 公開(公告)號: | CN113392176B | 公開(公告)日: | 2023-08-22 |
| 發明(設計)人: | 彭江軍 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F40/211;G06F40/289 |
| 代理公司: | 北京三高永信知識產權代理有限責任公司 11138 | 代理人: | 徐立 |
| 地址: | 518057 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 相似性 確定 方法 裝置 設備 介質 | ||
1.一種文本相似性的確定方法,其特征在于,所述方法包括:
獲取第一文本和第二文本;
提取所述第一文本和所述第二文本在k個特征維度上的相關特征,k為大于1的整數;
將所述k個特征維度上的相關特征作為k個自變量輸入非負線性回歸方程,得到因變量;所述非負線性回歸方程中的回歸系數均為非負值;
在所述因變量大于閾值時,確定所述第一文本和所述第二文本相似。
2.根據權利要求1所述的方法,其特征在于,所述非負線性回歸方程是采用如下步驟訓練得到的:
獲取樣本集,所述樣本集包括n組樣本文本對的k個相關特征和標簽,所述標簽用于指示所述樣本文本對中的兩個文本是否相似,n為不小于k的整數;
基于所述樣本集對所述非負線性回歸方程的損失函數計算梯度;
按照所述梯度對所述非負線性回歸方程的回歸系數進行迭代更新,每次迭代的所述回歸系數均為非負值;
在滿足迭代結束條件時,訓練得到所述非負線性回歸方程的回歸系數。
3.根據權利要求2所述的方法,其特征在于,所述按照所述梯度對所述非負線性回歸方程的回歸系數進行迭代更新,包括:
根據所述梯度和所述回歸系數的第m次迭代值,計算得到所述回歸系數的第m+1次迭代候選值,m的起始值為1;
取所述第m+1次迭代候選值和零中的較大值,確定為所述回歸系數的第m+1次迭代值。
4.根據權利要求2所述的方法,其特征在于,所述按照所述梯度對所述非負線性回歸方程的回歸系數進行迭代更新,包括:
計算所述回歸系數的第m次迭代值和自適應乘子的乘積,確定為所述回歸系數的第m+1次迭代值,m的起始值為1;
其中,所述第m次迭代值和所述自適應乘子均為非負值,所述自適應乘子是基于所述梯度確定的乘子。
5.根據權利要求4所述的方法,其特征在于,與第i個回歸系數對應的所述自適應乘子為:
其中,X為所述n組樣本文本對中的k個相關特征所組成的觀測數據矩陣,Y為所述n組樣本文本對中的因變量組成的數值向量,i代表第i個回歸系數,i的取值范圍為1至k,wm為所述第m次迭代值。
6.根據權利要求1至5任一所述的方法,其特征在于,所述特征維度包括如下k種:
詞頻-逆文本頻率指數TF-IDF;
歸一化的TF-IDF;
BM25評分;
歸一化的BM25評分;
所述第一文本中的命中詞的個數;
所述第一文本中的命中詞的比例;
所述第一文本中的命中詞的權重;
所述第一文本中的核心命中詞的個數;
所述第一文本中的核心命中詞的比例;
所述第一文本中的核心命中詞的權重;
所述第二文本中的命中詞的個數;
所述第二文本中的命中詞的比例;
所述第二文本中的命中詞的權重;
所述第二文本中的核心命中詞的個數;
所述第二文本中的核心命中詞的比例;
所述第二文本中的核心命中詞的權重;
杰卡德Jaccard相似性;
基于第一權重的杰卡德相似性,所述第一權重是與所述第一文本對應的權重;
基于第二權重的杰卡德相似性,所述第二權重是與所述第二文本對應的權重。
7.一種文本相似性的確定裝置,其特征在于,所述裝置包括:
文本獲取模塊,用于獲取第一文本和第二文本;
特征提取模塊,用于提取所述第一文本和所述第二文本在k個特征維度上的相關特征,k為大于1的整數;
非負回歸模塊,用于將所述k個特征維度上的相關特征作為k個自變量輸入非負線性回歸方程,得到因變量;所述非負線性回歸方程中的回歸系數均為非負值;
相關確定模塊,用于在所述因變量大于閾值時,確定所述第一文本和所述第二文本相似。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011043848.4/1.html,轉載請聲明來源鉆瓜專利網。





