[發(fā)明專利]文本相似度的確定方法及裝置有效
| 申請?zhí)枺?/td> | 201811152289.3 | 申請日: | 2018-09-29 |
| 公開(公告)號: | CN110969023B | 公開(公告)日: | 2023-04-18 |
| 發(fā)明(設(shè)計)人: | 孫德彬;徐文斌 | 申請(專利權(quán))人: | 北京國雙科技有限公司 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F40/289;G06N3/0464;G06N3/08 |
| 代理公司: | 北京康信知識產(chǎn)權(quán)代理有限責任公司 11240 | 代理人: | 趙囡囡;董文倩 |
| 地址: | 100083 北京市海淀區(qū)*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 文本 相似 確定 方法 裝置 | ||
本發(fā)明公開了一種文本相似度的確定方法及裝置。其中,該方法包括:獲取至少兩個文本的詞序列;將至少兩個文本的詞序列轉(zhuǎn)換成多維數(shù)字向量;通過預(yù)先訓(xùn)練的匹配模型對多維數(shù)字向量進行語義組合,以確定文本向量;通過所述匹配模型對所述文本向量進行向量比對,并對至少兩個文本的文本語義進行解析,確定至少兩個文本的文本相似度。本發(fā)明解決了相關(guān)技術(shù)中由于語義不同導(dǎo)致文本相似度判別困難的技術(shù)問題。
技術(shù)領(lǐng)域
本發(fā)明涉及文本匹配技術(shù)領(lǐng)域,具體而言,涉及一種文本相似度的確定方法及裝置。
背景技術(shù)
在相關(guān)技術(shù)中,對于文本之間的相似度匹配,往往是比較字面上的詞語含義,或者是通過簡單的觀點匹配來確認文本的相似度。隨著當前電子政務(wù)及電子辦公系統(tǒng)的普及,數(shù)據(jù)量也在急速上升,大量相似觀點的存在對后期數(shù)據(jù)分析形成了較大困難,因此,需要對文本之間的相似度進行有效確認,以減少相似文本的工作量。當前對于相似度的計算,主要分為兩類,一類是基于統(tǒng)計的方法,主要用于句子及段落級別的相似度計算,即對文本中的句子含義和段落含義進行識別,以確認文本之間的相似度。而另一類是基于語義的方法,主要用于詞語和句子級別的相似度計算,即分別比較文本中的詞語的詞義,進而確認詞語和句子之間的相似度,以綜合比較文本的相似度。
但是上述兩種計算文本相似度的方式,只能解決詞匯層面的匹配問題,在一些情況下,直接通過字面距離并不能正確地進行相似度匹配,比如由于語言的同義性、多義性的存在,導(dǎo)致語義上相似的文本相似度低,而字面相同但含義完全不同的文本卻相似度高,比如同義詞“客人”與“顧客”都是指的客戶,多義詞如“陽光”和日產(chǎn)汽車“陽光”不同。另外,組合結(jié)構(gòu)的不同也會造成語義不同,進而出現(xiàn)文本相似度雖然高,但是實際內(nèi)容截然相反的情況,比如文本“柜員取錢給客戶”和“客戶取錢給柜員”,顯然由于詞語序列不同,含義也截然相反,但是由于字面上詞語重合度高被判定為相似度高,這樣都會給文本的相似度判別造成困難。即當前計算文本相似度時,很容易出現(xiàn)在詞匯字面上進行相似度計算,對同義詞,近義詞等詞語無法很好處理。
針對上述的問題,目前尚未提出有效的解決方案。
發(fā)明內(nèi)容
本發(fā)明實施例提供了一種文本相似度的確定方法及裝置,以至少解決相關(guān)技術(shù)中由于語義不同導(dǎo)致文本相似度判別困難的技術(shù)問題。
根據(jù)本發(fā)明實施例的一個方面,提供了一種文本相似度的確定方法,包括:獲取至少兩個文本的詞序列;將所述至少兩個文本的詞序列轉(zhuǎn)換成多維數(shù)字向量;通過預(yù)先訓(xùn)練的匹配模型對所述多維數(shù)字向量進行語義組合,以確定文本向量;通過所述匹配模型對所述文本向量進行向量比對,并對所述至少兩個文本的文本語義進行解析,確定所述至少兩個文本的文本相似度。
進一步地,通過預(yù)先訓(xùn)練的匹配模型對所述多維數(shù)字向量進行語義組合,以確定文本向量的步驟,包括:獲取所述多維數(shù)字向量;依據(jù)所述多維數(shù)字向量,計算低維語義向量,其中,所述低維語義向量表示詞語所在的句子的語義信息;對所述低維語義向量進行組合,確定多個單維句子向量,其中,所述單維句子向量表示句子所在文本的文本信息;通過所述多個單維句子向量,計算所述至少兩個文本的文本向量。
進一步地,依據(jù)所述多維數(shù)字向量,計算低維語義向量包括:將所述多維數(shù)字向量中的每維數(shù)字向量轉(zhuǎn)換為表示詞語所在句子的詞語向量;組合詞語向量中詞義的相似度在預(yù)設(shè)范圍內(nèi)的詞語,以得到所述低維語義向量。
進一步地,通過所述匹配模型對所述文本向量進行向量比對,并對所述至少兩個文本的文本語義進行解析,確定所述至少兩個文本的文本相似度的步驟,包括:依據(jù)所述文本向量,確定每個文本的文本中心語句;依據(jù)所述文本中心語句,確定每個所述文本的文章中心語義;根據(jù)所述至少兩個文本中每個文本的所述文章中心語義和所述匹配模型,計算所述至少兩個文本的文本相似度。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京國雙科技有限公司,未經(jīng)北京國雙科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811152289.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





