[發明專利]句子相似度計算方法及裝置有效
| 申請號: | 201510502241.0 | 申請日: | 2015-08-14 |
| 公開(公告)號: | CN105095188B | 公開(公告)日: | 2018-02-16 |
| 發明(設計)人: | 劉佳 | 申請(專利權)人: | 北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 中原信達知識產權代理有限責任公司11219 | 代理人: | 張一軍,姜勁 |
| 地址: | 100080 北京市海淀區杏石口路6*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 句子 相似 計算方法 裝置 | ||
技術領域
本發明涉及自然語言處理技術領域,尤其涉及一種句子相似度計算方法及裝置。
背景技術
句子相似度計算是自然語言處理的一項重要研究內容,近年來在信息檢索、機器翻譯、問答系統、自動文摘等應用領域中的作用越來越重要。
傳統方法多通過余弦相似性(cosine similiarity)來衡量兩個句子的相似程度。具體過程為:先將需要比較相似度的兩個句子分別轉換為句向量表示,然后計算兩個句向量的夾角的余弦值,。計算結果數值是0到1之間,數值越大說明兩個句子越相似。更多詳情可以參考維基百科https://en.wikipedia.org/wiki/Cosine_similarity。該方法簡便易行,但是不夠準確。
例如:需要比較“是高清吧”和“這是高清的嗎”這兩個句子的相似度。切詞后的兩個句子分別是“是/高清/吧”和“這是/高清/的/嗎”。假設詞的權重值都是1,各詞對應的向量維度下標為:是->維度下標1,高清->維度下標2,吧->維度下標3,這是->維度下標4,的->維度下標5,嗎->維度下標6,則兩個句子分別對應的句向量是[1,1,1,0,0,0]和[0,1,0,1,1,1]。計算這兩個句向量的夾角的余弦值:
上述方法計算出來的余弦值很小、句子相似度不高,然而人工判斷兩個句子實際上非常相似,由此可見上述方法存在準確度低的缺陷。
發明內容
有鑒于此,本發明旨在克服現有技術的準確度低的缺陷,提供一種準確度高的句子相似度計算方法及裝置。
為實現上述目的,根據本發明的一個方面,提供了一種句子相似度計算方法,包括:步驟S1:針對第一句子和第二句子確定重復詞、第一孤存詞和第二孤存詞,其中,所述重復詞既屬于所述第一句子又屬于所述第二句子,所述第一孤存詞僅屬于所述第一句子,所述第二孤存詞僅屬于所述第二句子;步驟S2:根據所有第一孤存詞和所有第二孤存詞,計算孤存詞相似度總貢獻值G總,其中,G總≥0,并且所有所述第一孤存詞與所有所述第二孤存詞之間的相似程度越高,所述G總數值越大;步驟S3:根據公式計算SIM(A,B),其中SIM(A,B)表示所述第一句子和第二句子的句子相似度,表示所述第一句子對應的第一句向量,表示所述第二句子對應的第二句向量。
可選地,所述步驟S2包括:
步驟S21:將所有所述第一孤存詞在所有所述第二孤存詞進行語義匹配,以得到匹配孤存詞對以及所述匹配孤存詞對的相似度貢獻值G;
步驟S22:將所有的所述匹配孤存詞對的相似度貢獻值G求和,得到所述孤存詞相似度總貢獻值G總。
可選地,所述為步驟S21包括:步驟S211:確定當前所有所述第一孤存詞和所有第二孤存詞的并集集合中的詞權重最大詞X;步驟S212:根據公式G(X)=max{WX×WYi×similarity(X,Yi)|Yi∈集合U}計算G(X),其中G(X)表示針對詞語X進行語義配對得到的匹配孤存詞對的相似度貢獻值,所述集合U在所述X是第一孤存詞的情況下表示當前所有所述第二孤存詞構成的集合,所述集合U在所述X是第二孤存詞的情況下表示當前所有所述第一孤存詞構成的集合,Yi表示所述集合U中的元素,Wx表示詞語X的詞權重,WYi表示詞語Yi的詞權重,similarity(X,Yi)表示X與Yi的詞義相似度且取值范圍為[0,1];步驟S213:判斷G(X)是否大于0,如果G(X)>0,則確認X和所述G(X)對應的Yi兩個詞成功地匹配為孤存詞對,記錄該孤存詞對相似度貢獻度G=G(X),并且將該孤存詞對從所述并集集合中刪除,如果G(X)=0,將所述X從所述并集集合中刪除;步驟S214:判斷所述并集集合是否為空集,如果否,跳至步驟S211。
可選地,所述詞權重采用詞頻-逆文檔頻率。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司,未經北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510502241.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種一鍵式策略編程的方法及裝置
- 下一篇:一種合同文檔的自動生成方法和裝置





