[發明專利]文本相似度計算方法及系統、數據查詢系統和計算機產品有效
| 申請號: | 201810060942.7 | 申請日: | 2018-01-22 |
| 公開(公告)號: | CN108170684B | 公開(公告)日: | 2020-06-05 |
| 發明(設計)人: | 張振中 | 申請(專利權)人: | 京東方科技集團股份有限公司 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F40/289;G06F16/33 |
| 代理公司: | 北京律智知識產權代理有限公司 11438 | 代理人: | 袁禮君;王衛忠 |
| 地址: | 100015 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 相似 計算方法 系統 數據 查詢 計算機 產品 | ||
1.一種文本相似度的計算方法,包括:
至少獲取第一文本和第二文本;
將所述第一文本和第二文本映射為向量;
通過下述公式將第二文本中的詞語對應的向量重構所述第一文本的詞語對應的向量計算語義覆蓋:
求解αi,j,
其中Si為第一文本的列向量,Tj為第二文本的列向量,αi,j為語義覆蓋參數,λ0,為事先設定的正實數;i=1,2,…,n;j=1,2,…,m;n和m為正整數;
對所述第一文本與第二文本進行語義分解,得到所述第一文本和第二文本的相似部分和差異部分;
利用所述相似部分和差異部分計算所述第一文本與所述第二文本之間的相似度。
2.根據權利要求1所述的文本相似度的計算方法,將所述第一文本和第二文本映射為向量,還包括:對所述第一文本和第二文本對應的向量進行降維處理。
3.根據權利要求2所述的文本相似度的計算方法,對所述第一文本和第二文本對應的向量進行降維處理,包括采用下述至少一種方法進行降維處理:詞向量、句子向量、文章向量。
4.根據權利要求1所述的文本相似度的計算方法,其中,計算所述第一文本的相似部分和差異部分包括:
采用公式
計算相似部分和差異部分,其中Ai,j為αi,j的矩陣,Si’為所述第一文本的相似部分,Si-Si’為所述第一文本的差異部分;
其中i=1,2,…,n;j=1,2,…,m;n和m為正整數。
5.根據權利要求1所述的文本相似度的計算方法,其中,計算所述第二文本的相似部分和差異部分包括:
采用公式
計算相似部分和差異部分,其中Ai,j為αi,j的矩陣,Tj’為所述第二文本的相似部分,Tj–Tj’為所述第二文本的差異部分。
6.根據權利要求1所述的文本相似度的計算方法,其中利用所述相似部分和差異部分計算所述第一文本與所述第二文本之間的相似度包括:
輸入所述第一文本和所述第二文本的相似部分和差異部分,利用循環神經網絡得到所述第一文本和所述第二文本之間的相似度。
7.根據權利要求6所述的文本相似度的計算方法,用循環神經網絡得到所述第一文本和所述第二文本之間的相似度,還包括利用樣本數據對循環神經網絡進行訓練的步驟,所述訓練數據的格式為(S,T,L),其中S表示第一文本,T表示第二文本,L表示相似度。
8.根據權利要求7所述的文本相似度的計算方法,利用樣本數據對所述循環神經網絡進行訓練的步驟,還包括預先定義相似程度的粒度,并且將樣本數據輸入到所述循環神經網絡,進行訓練。
9.一種文本相似度計算系統,包括:
獲取模塊,被配置為至少獲取第一文本和第二文本的輸入;
映射模塊,被配置為將所述第一文本和第二文本映射為向量;
文本相似度計算模塊,所述文本相似度計算模塊包括:
語義匹配模塊,被配置為執行下述公式
計算語義覆蓋,
其中Si為第一文本的列向量,Tj為第二文本的列向量,αi,j為語義覆蓋參數,λ0,為事先設定的正實數;
語義分解模塊,被配置為計算所述第一文本和第二文本的相似部分和差異部分;
相似度計算模塊,被配置為使用所述相似部分和差異部分計算所述第一文本和第二文本的相似度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于京東方科技集團股份有限公司,未經京東方科技集團股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810060942.7/1.html,轉載請聲明來源鉆瓜專利網。





