[發(fā)明專利]文本相似度計算方法及系統(tǒng)、數(shù)據(jù)查詢系統(tǒng)和計算機(jī)產(chǎn)品有效
| 申請?zhí)枺?/td> | 201810060942.7 | 申請日: | 2018-01-22 |
| 公開(公告)號: | CN108170684B | 公開(公告)日: | 2020-06-05 |
| 發(fā)明(設(shè)計)人: | 張振中 | 申請(專利權(quán))人: | 京東方科技集團(tuán)股份有限公司 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F40/289;G06F16/33 |
| 代理公司: | 北京律智知識產(chǎn)權(quán)代理有限公司 11438 | 代理人: | 袁禮君;王衛(wèi)忠 |
| 地址: | 100015 *** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 文本 相似 計算方法 系統(tǒng) 數(shù)據(jù) 查詢 計算機(jī) 產(chǎn)品 | ||
本公開提供一種文本相似度的計算方法及系統(tǒng)、數(shù)據(jù)查詢系統(tǒng)、計算機(jī)產(chǎn)品和計算機(jī)可讀存儲介質(zhì)。該文本相似度的計算方法包括:至少獲取第一文本和第二文本;將所述第一文本和第二文本映射為向量;計算所述第一文本與所述第二文本的相似部分和差異部分;利用所述相似部分和差異部分計算所述第一文本與所述第二文本之間的相似度。根據(jù)本公開提供的文本相似度的計算方法和系統(tǒng),至少部分地考慮了詞語語義相似性和差異性對文本相似度的影響,能夠從更細(xì)的粒度上計算文本之間的語義相似度,進(jìn)而提高文本匹配的精度,實現(xiàn)高精度的檢索或查詢等。
技術(shù)領(lǐng)域
本申請涉及數(shù)據(jù)處理領(lǐng)域,尤其涉及一種文本相似度的計算方法及系統(tǒng)、數(shù)據(jù)查詢系統(tǒng)、計算機(jī)產(chǎn)品和計算機(jī)可讀存儲介質(zhì)。
背景技術(shù)
互聯(lián)網(wǎng)的快速發(fā)展以及大數(shù)據(jù)時代的到來為人們有效獲取各類信息提供了基礎(chǔ)。目前人們已經(jīng)習(xí)慣通過網(wǎng)絡(luò)來獲取各種各樣的信息。舉例來說,在醫(yī)學(xué)領(lǐng)域,醫(yī)護(hù)人員可以通過輸入關(guān)鍵詞搜索得到所需的文獻(xiàn)、書籍或者相關(guān)網(wǎng)頁等。對于患者來說,可以通過查看醫(yī)療網(wǎng)站的社區(qū)問答滿足自身的信息需求。信息服務(wù)系統(tǒng)的基本流程是依據(jù)用戶輸入的查詢或者問題,從數(shù)據(jù)中(文檔集、問題集或者知識庫等)匹配和查詢或者問題最相關(guān)的內(nèi)容返回給用戶。
但是目前的信息查詢系統(tǒng)在滿足人們信息需求的同時,也存在著一些不足之處,例如由于文本相似度的計算不夠全面,導(dǎo)致匹配精度不高。
發(fā)明內(nèi)容
本公開的實施例提供一種文本相似度的計算方法,包括:
至少獲取第一文本和第二文本;
將所述第一文本和第二文本映射為向量;
計算所述第一文本與所述第二文本的相似部分和差異部分;
利用所述相似部分和差異部分計算所述第一文本與所述第二文本之間的相似度。
可選地,將所述第一文本和第二文本映射為向量,還包括:對所述第一文本和第二文本對應(yīng)的向量進(jìn)行降維處理。
可選地,對所述第一文本和第二文本對應(yīng)的向量進(jìn)行降維處理,包括采用下述至少一種方法進(jìn)行降維處理:詞向量、句子向量、文章向量。
可選地,計算所述第一文本與所述第二文本之間的相似部分和差異部分,包括:對所述第一文本與第二文本進(jìn)行語義匹配;對所述第一文本與第二文本進(jìn)行語義分解,得到所述第一文本和第二文本的相似部分和差異部分。
可選地,將所述第一文本與第二文本進(jìn)行語義匹配,包括:將第二文本中的詞語對應(yīng)的向量重構(gòu)所述第一文本的詞語對應(yīng)的向量來判斷語義覆蓋的內(nèi)容。
可選地,通過下述公式將第二文本中的詞語對應(yīng)的向量重構(gòu)所述第一文本的詞語對應(yīng)的向量計算語義覆蓋:
求解αi,j,Si為第一文本的列向量,Tj為第二文本的列向量,αi,j為語義覆蓋參數(shù),λ0,為事先設(shè)定的正實數(shù)。
可選地,計算所述第一文本的相似部分和差異部分,包括:采用公式
計算相似部分和差異部分,Ai,j為αi,j的矩陣,Si’為所述第一文本的相似部分,Si-Si’為所述第一文本的差異部分。
可選地,計算所述第二文本的相似部分和差異部分,包括:
采用公式
計算相似部分和差異部分,Ai,j為αi,j的矩陣,Tj’為所述第二文本的相似部分,Tj–Tj’為所述第二文本的差異部分。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于京東方科技集團(tuán)股份有限公司,未經(jīng)京東方科技集團(tuán)股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810060942.7/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計算機(jī)可讀存儲介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計算機(jī)設(shè)備和存儲介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲介質(zhì)
- 文本生成方法、裝置和電子設(shè)備





