[發(fā)明專利]文本相似度計算方法及系統(tǒng)、數(shù)據(jù)查詢系統(tǒng)和計算機(jī)產(chǎn)品有效

申請?zhí)枺?/td>	201810060942.7	申請日：	2018-01-22
公開（公告）號：	CN108170684B	公開（公告）日：	2020-06-05
發(fā)明（設(shè)計）人：	張振中	申請（專利權(quán)）人：	京東方科技集團(tuán)股份有限公司
主分類號：	G06F40/30	分類號：	G06F40/30;G06F40/289;G06F16/33
代理公司：	北京律智知識產(chǎn)權(quán)代理有限公司 11438	代理人：	袁禮君;王衛(wèi)忠
地址：	100015 ***	國省代碼：	北京;11
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	文本相似計算方法系統(tǒng) 數(shù)據(jù) 查詢計算機(jī) 產(chǎn)品
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

本公開提供一種文本相似度的計算方法及系統(tǒng)、數(shù)據(jù)查詢系統(tǒng)、計算機(jī)產(chǎn)品和計算機(jī)可讀存儲介質(zhì)。該文本相似度的計算方法包括：至少獲取第一文本和第二文本；將所述第一文本和第二文本映射為向量；計算所述第一文本與所述第二文本的相似部分和差異部分；利用所述相似部分和差異部分計算所述第一文本與所述第二文本之間的相似度。根據(jù)本公開提供的文本相似度的計算方法和系統(tǒng)，至少部分地考慮了詞語語義相似性和差異性對文本相似度的影響，能夠從更細(xì)的粒度上計算文本之間的語義相似度，進(jìn)而提高文本匹配的精度，實現(xiàn)高精度的檢索或查詢等。

技術(shù)領(lǐng)域

本申請涉及數(shù)據(jù)處理領(lǐng)域，尤其涉及一種文本相似度的計算方法及系統(tǒng)、數(shù)據(jù)查詢系統(tǒng)、計算機(jī)產(chǎn)品和計算機(jī)可讀存儲介質(zhì)。

背景技術(shù)

互聯(lián)網(wǎng)的快速發(fā)展以及大數(shù)據(jù)時代的到來為人們有效獲取各類信息提供了基礎(chǔ)。目前人們已經(jīng)習(xí)慣通過網(wǎng)絡(luò)來獲取各種各樣的信息。舉例來說，在醫(yī)學(xué)領(lǐng)域，醫(yī)護(hù)人員可以通過輸入關(guān)鍵詞搜索得到所需的文獻(xiàn)、書籍或者相關(guān)網(wǎng)頁等。對于患者來說，可以通過查看醫(yī)療網(wǎng)站的社區(qū)問答滿足自身的信息需求。信息服務(wù)系統(tǒng)的基本流程是依據(jù)用戶輸入的查詢或者問題，從數(shù)據(jù)中(文檔集、問題集或者知識庫等)匹配和查詢或者問題最相關(guān)的內(nèi)容返回給用戶。

但是目前的信息查詢系統(tǒng)在滿足人們信息需求的同時，也存在著一些不足之處，例如由于文本相似度的計算不夠全面，導(dǎo)致匹配精度不高。

發(fā)明內(nèi)容

本公開的實施例提供一種文本相似度的計算方法，包括：

至少獲取第一文本和第二文本；

將所述第一文本和第二文本映射為向量；

計算所述第一文本與所述第二文本的相似部分和差異部分；

利用所述相似部分和差異部分計算所述第一文本與所述第二文本之間的相似度。

可選地，將所述第一文本和第二文本映射為向量，還包括：對所述第一文本和第二文本對應(yīng)的向量進(jìn)行降維處理。

可選地，對所述第一文本和第二文本對應(yīng)的向量進(jìn)行降維處理，包括采用下述至少一種方法進(jìn)行降維處理：詞向量、句子向量、文章向量。

可選地，計算所述第一文本與所述第二文本之間的相似部分和差異部分，包括：對所述第一文本與第二文本進(jìn)行語義匹配；對所述第一文本與第二文本進(jìn)行語義分解，得到所述第一文本和第二文本的相似部分和差異部分。

可選地，將所述第一文本與第二文本進(jìn)行語義匹配，包括：將第二文本中的詞語對應(yīng)的向量重構(gòu)所述第一文本的詞語對應(yīng)的向量來判斷語義覆蓋的內(nèi)容。

可選地，通過下述公式將第二文本中的詞語對應(yīng)的向量重構(gòu)所述第一文本的詞語對應(yīng)的向量計算語義覆蓋：

求解α_i,j，S_i為第一文本的列向量，T_j為第二文本的列向量，α_i,j為語義覆蓋參數(shù)，λ0,為事先設(shè)定的正實數(shù)。

可選地，計算所述第一文本的相似部分和差異部分，包括：采用公式

計算相似部分和差異部分，A_i,j為α_i,j的矩陣，S_i’為所述第一文本的相似部分，S_i-S_i’為所述第一文本的差異部分。

可選地，計算所述第二文本的相似部分和差異部分，包括：

采用公式

計算相似部分和差異部分，A_i,j為α_i,j的矩陣，T_j’為所述第二文本的相似部分，T_j–T_j’為所述第二文本的差異部分。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于京東方科技集團(tuán)股份有限公司，未經(jīng)京東方科技集團(tuán)股份有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201810060942.7/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

上一篇：用于獲取信息的方法和裝置
下一篇：文本情感分析方法、裝置和計算機(jī)可讀存儲介質(zhì)

同類專利

專利分類

G 物理

G06 計算；推算；計數(shù)
G06F 電數(shù)字?jǐn)?shù)據(jù)處理

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻(xiàn)下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進(jìn)行下載，點擊【登陸】【注冊】