[發明專利]一種基于bootstrapping的文本相似度計算方法有效
| 申請號: | 201810400574.6 | 申請日: | 2018-04-28 |
| 公開(公告)號: | CN110413956B | 公開(公告)日: | 2023-08-01 |
| 發明(設計)人: | 王清琛;杜振東 | 申請(專利權)人: | 南京云問網絡技術有限公司 |
| 主分類號: | G06F40/194 | 分類號: | G06F40/194;G06F40/284 |
| 代理公司: | 常州佰業騰飛專利代理事務所(普通合伙) 32231 | 代理人: | 劉娟娟 |
| 地址: | 211106 江蘇省南京市*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 bootstrapping 文本 相似 計算方法 | ||
1.一種基于bootstrapping的文本相似度計算方法,其特征在于,它包括以下步驟:
步驟一,計算詞的逆向文檔頻率作為詞權重的初始值;
步驟二,依據逆向文檔頻率選擇初始核心詞表;
步驟三,計算文本中詞的共現矩陣;
步驟四,根據bootstrapping算法,計算候選詞和初始核心詞的相關度作為更新權重的系數;
步驟五,根據詞向量V、詞權重W和詞性權值F來計算句向量;
其中,所述步驟四中相關度的計算公式如下:
其中,T(Si,Rj)是指初始核心詞Si和候選詞Rj的相關度,Si是指初始核心詞表S中第i個詞,Rj是指候選詞表R中第j個詞,F(Si,Rj)是指初始核心詞Si和候選詞Rj的共現頻次,F(Rj)是指包含候選詞Rj在文檔出現的頻次;
其中,所述步驟四中更新權重的系數的計算公式如下:
其中,K(Rj)是指候選詞Rj權重的更新系數,是指最大的相關度,|S|是指核心詞表S中詞的個數;
所述步驟四中每迭代一次,更新一次更新系數,詞權重的更新計算公式如下:
其中,W(Ci)是指詞Ci的權重,j是指第j次迭代,n是指總共迭代的次數,Kj(Ci)是指第j次迭代中詞Ci權重的更新系數。
2.根據權利要求1所述的基于bootstrapping的文本相似度計算方法,其特征在于,所述步驟一中詞權重是用代表文本中的詞以一個數值來表示,生成文本的實數值向量。
3.根據權利要求1所述的基于bootstrapping的文本相似度計算方法,其特征在于,所述步驟五中句向量的計算公式如下:
其中,Dij是指文本Di中的第j個詞,|Di|是指文本Di中的詞個數,α參數從0到1反復迭代查找最優值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京云問網絡技術有限公司,未經南京云問網絡技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810400574.6/1.html,轉載請聲明來源鉆瓜專利網。





