[發明專利]一種基于bootstrapping的文本相似度計算方法有效
| 申請號: | 201810400574.6 | 申請日: | 2018-04-28 |
| 公開(公告)號: | CN110413956B | 公開(公告)日: | 2023-08-01 |
| 發明(設計)人: | 王清琛;杜振東 | 申請(專利權)人: | 南京云問網絡技術有限公司 |
| 主分類號: | G06F40/194 | 分類號: | G06F40/194;G06F40/284 |
| 代理公司: | 常州佰業騰飛專利代理事務所(普通合伙) 32231 | 代理人: | 劉娟娟 |
| 地址: | 211106 江蘇省南京市*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 bootstrapping 文本 相似 計算方法 | ||
本發明公開一種基于bootstrapping的文本相似度計算方法,它包括:計算詞的逆向文檔頻率作為詞權重的初始值;依據逆向文檔頻率選擇初始核心詞表;計算文本中詞的共現矩陣;根據bootstrapping算法,計算候選詞和初始核心詞的相關度作為更新權重的系數;根據詞向量V、詞權重W和詞性權值F來計算句向量。采用本發明的技術方案,可以顯著提高短文本的相似度計算。
技術領域
本發明涉及一種詞權重的計算方法,尤其是一種基于bootstrapping的文本相似度計算方法。
背景技術
在當今的信息互聯網時代,大量的文本信息需要經過加工處理才能有效利用。因此,自然語言處理領域不斷發展起來。在自然語言處理中將文本分詞并用詞權重來表示,生成向量空間模型是常見處理方式。目前在詞權重的計算方法上已經提出了很多有效的方法,其中使用tfidf作為詞權重是最常使用的方法之一。
bootstarpping算法是在統計學的基礎上,利用有限的樣本進行重復采樣的過程。每迭代一次就會產生新的樣本,來抽取與初始樣本相似的新樣本。
詞向量是指通過對語料中的分詞進行統計,將每個詞映射到一個多維的富含上文信息的向量空間中。詞向量的維度可以根據具體的任務來設置,便于將文本信息轉化為可計算的數值信息,對自然語言處理有著重要的作用。
發明內容
為解決傳統的idf僅是從詞頻上判別分詞的權重,而忽視了詞匯之間關聯的不足,本發明提供一種基于bootstrapping的文本相似度計算方法,用來優化idf詞權重以提高文本相似度。
為實現上述目的,本發明采用下述技術方案:
一種基于bootstrapping的文本相似度計算方法,它包括以下步驟:
步驟一,計算詞的逆向文檔頻率作為詞權重的初始值;
步驟二,依據逆向文檔頻率選擇初始核心詞表;
步驟三,計算文本中詞的共現矩陣;
步驟四,根據bootstrapping算法,計算候選詞和初始核心詞的相關度作為更新權重的系數;
步驟五,根據詞向量V、詞權重W和詞性權值F來計算句向量。
進一步地,步驟一中詞權重是用代表文本中的詞以一個數值來表示,生成文本的實數值向量。詞在文本中越能代表主題,權重越低。
進一步地,步驟四中相關度的計算公式如下:
其中,Si是指初始核心詞表S中第i個詞,Rj是指候選詞表R中第j個詞,F(Si,Rj)是指初始核心詞Si和候選詞Rj的共現頻次,F(Rj)是指包含候選詞Rj在文檔出現的頻次。
進一步地,步驟四中更新權重的系數的計算公式如下:
其中,maxiT(Si,Rj)是指最大的相關度,|S|是指核心詞表S中詞的個數。
進一步地,步驟四中每迭代一次,更新一次系數,其更新計算公式如下:
其中,j是指第j次迭代,n是指總共迭代的次數,Kj(Ci)是指第j次迭代中詞Ci的更新系數。
進一步地,步驟五中句向量的計算公式如下:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京云問網絡技術有限公司,未經南京云問網絡技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810400574.6/2.html,轉載請聲明來源鉆瓜專利網。





