[發明專利]句子相似度計算方法及裝置有效
| 申請號: | 201510502241.0 | 申請日: | 2015-08-14 |
| 公開(公告)號: | CN105095188B | 公開(公告)日: | 2018-02-16 |
| 發明(設計)人: | 劉佳 | 申請(專利權)人: | 北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 中原信達知識產權代理有限責任公司11219 | 代理人: | 張一軍,姜勁 |
| 地址: | 100080 北京市海淀區杏石口路6*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 句子 相似 計算方法 裝置 | ||
1.一種句子相似度計算方法,其特征在于,包括:
步驟S1:針對第一句子和第二句子確定重復詞、第一孤存詞和第二孤存詞,其中,所述重復詞既屬于所述第一句子又屬于所述第二句子,所述第一孤存詞僅屬于所述第一句子,所述第二孤存詞僅屬于所述第二句子;
步驟S2:根據所有第一孤存詞和所有第二孤存詞,計算孤存詞相似度總貢獻值G總,其中,G總≥0,并且所有所述第一孤存詞與所有所述第二孤存詞之間的相似程度越高,所述G總數值越大;
步驟S3:根據公式計算SIM(A,B);
其中,SIM(A,B)表示所述第一句子和第二句子的句子相似度,表示所述第一句子對應的第一句向量,表示所述第二句子對應的第二句向量;
其中,所述步驟S2包括:
步驟S21:將所有所述第一孤存詞在所有所述第二孤存詞進行語義匹配,以得到匹配孤存詞對以及所述匹配孤存詞對的相似度貢獻值G;
步驟S22:將所有的所述匹配孤存詞對的相似度貢獻值G求和,得到所述孤存詞相似度總貢獻值G總;
以及,所述步驟S21包括:
步驟S211:確定當前所有所述第一孤存詞和所有第二孤存詞的并集集合中的詞權重最大詞X;
步驟S212:根據公式G(X)=max{WX×WYi×similarity(X,Yi)|Yi∈集合U}計算G(X),其中G(X)表示針對詞語X進行語義配對得到的匹配孤存詞對的相似度貢獻值,所述集合U在所述X是第一孤存詞的情況下表示當前所有所述第二孤存詞構成的集合,所述集合U在所述X是第二孤存詞的情況下表示當前所有所述第一孤存詞構成的集合,Yi表示所述集合U中的元素,Wx表示詞語X的詞權重,WYi表示詞語Yi的詞權重,similarity(X,Yi)表示X與Yi的詞義相似度且取值范圍為[0,1];
步驟S213:判斷G(X)是否大于0,如果G(X)>0,則確認X和所述G(X)對應的Yi兩個詞成功地匹配為孤存詞對,記錄該孤存詞對相似度貢獻度G=G(X),并且將該孤存詞對從所述并集集合中刪除,如果G(X)=0,將所述X從所述并集集合中刪除;
步驟S214:判斷所述并集集合是否為空集,如果否,跳至步驟S211。
2.根據權利要求1所述的句子相似度計算方法,其特征在于,所述詞權重采用詞頻-逆文檔頻率。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司,未經北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510502241.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種一鍵式策略編程的方法及裝置
- 下一篇:一種合同文檔的自動生成方法和裝置





