[發(fā)明專利]一種文本相似度計(jì)算方法及裝置有效

申請(qǐng)?zhí)枺?/td>	201610578843.9	申請(qǐng)日：	2016-07-20
公開(kāi)（公告）號(hào)：	CN107644010B	公開(kāi)（公告）日：	2021-05-25
發(fā)明（設(shè)計(jì)）人：	劉力華	申請(qǐng)（專利權(quán)）人：	阿里巴巴集團(tuán)控股有限公司
主分類號(hào)：	G06F40/253	分類號(hào)：	G06F40/253;G06F40/30
代理公司：	北京安信方達(dá)知識(shí)產(chǎn)權(quán)代理有限公司 11262	代理人：	蔣冬梅;李紅爽
地址：	英屬開(kāi)曼群島大開(kāi)***	國(guó)省代碼：	暫無(wú)信息
權(quán)利要求書(shū)：	查看更多	說(shuō)明書(shū)：	查看更多
摘要：
搜索關(guān)鍵詞：	一種文本相似計(jì)算方法裝置
鉆瓜網(wǎng) 技術(shù)展會(huì) 專利詞庫(kù) 專利權(quán)人專利榜在售專利公布日期熱門專利

【說(shuō)明書(shū)】：

一種文本相似度計(jì)算方法，用于計(jì)算兩個(gè)文本之間的相似度，其中，從每個(gè)文本中能夠提取至少兩個(gè)對(duì)象的數(shù)據(jù)，所述對(duì)象指能夠體現(xiàn)所述文本語(yǔ)義的特征，所述方法包括：確定兩個(gè)文本的共有對(duì)象，其中，所述共有對(duì)象的數(shù)目為至少兩個(gè)；計(jì)算所述兩個(gè)文本之間的每個(gè)共有對(duì)象的漢明距離；在所述至少兩個(gè)共有對(duì)象的漢明距離滿足第一預(yù)設(shè)條件時(shí)，根據(jù)以下至少一項(xiàng)確定所述兩個(gè)文本之間的相似度：所述至少兩個(gè)共有對(duì)象中預(yù)定對(duì)象的詞向量相似度、漢明距離以及拼接字符串相似度。通過(guò)上述方案，能夠提高文本相似度計(jì)算的效率及準(zhǔn)確性。

技術(shù)領(lǐng)域

本發(fā)明涉及數(shù)據(jù)處理領(lǐng)域，尤其涉及一種文本相似度計(jì)算方法及裝置。

背景技術(shù)

目前，文本之間的相似度計(jì)算被應(yīng)用到多個(gè)方面。在相關(guān)技術(shù)中，可以采用以下兩種方案進(jìn)行文本之間的對(duì)比。

第一種方案為：通過(guò)將長(zhǎng)文本分詞后，針對(duì)每個(gè)詞做哈希(hash)計(jì)算，并使用頻率做加權(quán)得到向量，再對(duì)向量二進(jìn)制化，得到文本的哈希值。根據(jù)文本之間的哈希值確定漢明距離。上述方案在谷歌(google)、百度等網(wǎng)頁(yè)去重領(lǐng)域應(yīng)用非常廣泛。

第二種方案為：采用文檔主題生成模型(LDA，Latent Dirichlet Allocation)或概率潛語(yǔ)義分析(PLSA，Probability Latent Semantic Analysis)等主題模型，通過(guò)機(jī)器學(xué)習(xí)，將文本映射到主題向量中，生成的向量之間存在一定的物理意義，通過(guò)計(jì)算兩個(gè)向量的余弦相似度從而得到兩個(gè)文本之間的相似性。

然而，上述第一種方案雖然能夠高效地獲取兩個(gè)文本的漢明距離，但是拋棄了內(nèi)容的語(yǔ)義，只是從文本字符串的角度進(jìn)行距離的計(jì)算；當(dāng)文本為短文本時(shí)，對(duì)比效果并不理想。而且，第一種方案的計(jì)算結(jié)果是距離值，不是相似度，不便于后續(xù)的業(yè)務(wù)處理。上述第二種方案雖然通過(guò)機(jī)器學(xué)習(xí)的方式可以很好地表示文本語(yǔ)義，但是，其中采用的模型的訓(xùn)練過(guò)程非常耗時(shí)，非常依賴訓(xùn)練樣本，可能會(huì)產(chǎn)生即使是很簡(jiǎn)單的句子也會(huì)計(jì)算錯(cuò)誤的問(wèn)題。并且高維向量之間的余弦計(jì)算效率較低，不實(shí)用于大文本或大數(shù)據(jù)環(huán)境。

綜上可知，相關(guān)技術(shù)中的文本相似度計(jì)算方案的計(jì)算效率較低、準(zhǔn)確性較低。

發(fā)明內(nèi)容

以下是對(duì)本文詳細(xì)描述的主題的概述。本概述并非是為了限制權(quán)利要求的保護(hù)范圍。

本申請(qǐng)實(shí)施例提供一種文本相似度計(jì)算方法及裝置，能夠提高文本相似度計(jì)算的效率及準(zhǔn)確性。

本申請(qǐng)實(shí)施例提供一種文本相似度計(jì)算方法，用于計(jì)算兩個(gè)文本之間的相似度，其中，從每個(gè)文本中能夠提取至少兩個(gè)對(duì)象的數(shù)據(jù)，所述對(duì)象指能夠體現(xiàn)所述文本語(yǔ)義的特征，所述方法包括：確定兩個(gè)文本的共有對(duì)象，其中，所述共有對(duì)象的數(shù)目為至少兩個(gè)；計(jì)算所述兩個(gè)文本之間的每個(gè)共有對(duì)象的漢明距離；在所述至少兩個(gè)共有對(duì)象的漢明距離滿足第一預(yù)設(shè)條件時(shí)，根據(jù)以下至少一項(xiàng)確定所述兩個(gè)文本之間的相似度：所述至少兩個(gè)共有對(duì)象中預(yù)定對(duì)象的詞向量相似度、漢明距離以及拼接字符串相似度。

可選地，所述方法還包括：在所述至少兩個(gè)共有對(duì)象的漢明距離不滿足所述第一預(yù)設(shè)條件時(shí)，根據(jù)所述至少兩個(gè)共有對(duì)象的漢明距離中的最小值確定所述兩個(gè)文本之間的相似度。

可選地，所述在所述至少兩個(gè)共有對(duì)象的漢明距離滿足第一預(yù)設(shè)條件時(shí)，確定所述兩個(gè)文本之間的相似度，包括：

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會(huì)員可以免費(fèi)下載。

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于阿里巴巴集團(tuán)控股有限公司，未經(jīng)阿里巴巴集團(tuán)控股有限公司許可，擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請(qǐng)聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201610578843.9/2.html，轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。

同類專利

專利分類

G 物理

G06 計(jì)算；推算；計(jì)數(shù)
G06F 電數(shù)字?jǐn)?shù)據(jù)處理

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

專利文獻(xiàn)下載

說(shuō)明：

1、專利原文基于中國(guó)國(guó)家知識(shí)產(chǎn)權(quán)局專利說(shuō)明書(shū)；

2、支持發(fā)明專利、實(shí)用新型專利、外觀設(shè)計(jì)專利（升級(jí)中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級(jí)為極速版,下載速度顯著提升！歡迎使用！

請(qǐng)您登陸后，進(jìn)行下載，點(diǎn)擊【登陸】【注冊(cè)】