[發(fā)明專利]文本相似度的計(jì)算方法、裝置、電子設(shè)備及存儲介質(zhì)在審

申請?zhí)枺?/td>	201811551461.2	申請日：	2018-12-18
公開（公告）號：	CN109635077A	公開（公告）日：	2019-04-16
發(fā)明（設(shè)計(jì)）人：	徐樂樂	申請（專利權(quán)）人：	武漢斗魚網(wǎng)絡(luò)科技有限公司
主分類號：	G06F16/33	分類號：	G06F16/33;G06F17/27
代理公司：	中科專利商標(biāo)代理有限責(zé)任公司 11021	代理人：	周天宇
地址：	430000 湖北省武漢市武漢東湖***	國省代碼：	湖北;42
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	詞匯文本相似度交集詞匯集合并集存儲介質(zhì) 電子設(shè)備文本權(quán)重信息技術(shù)領(lǐng)域相似度計(jì)算分詞處理計(jì)算裝置空間向量綜合文本相似度集合應(yīng)用
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

本發(fā)明公開了一種文本相似度的計(jì)算方法，應(yīng)用于信息技術(shù)領(lǐng)域，包括：對待處理的兩條文本進(jìn)行分詞處理，得到組成兩條文本的兩個詞匯集合，將兩個詞匯集合進(jìn)行并集處理和交集處理，得到兩個詞匯集合的并集詞匯和交集詞匯，再分別輸入各詞匯至預(yù)先訓(xùn)練的TF?IDF空間向量集合，得出各詞匯的權(quán)重值，然后基于并集詞匯和交集詞匯的權(quán)重值，計(jì)算得出兩條文本的相似度，本發(fā)明還公開了一種文本相似度的計(jì)算裝置、電子設(shè)備及存儲介質(zhì)，通過綜合文本中詞匯本身的重要程度以及共有詞匯的重要程度對相似度計(jì)算的影響，提高文本相似度計(jì)算的準(zhǔn)確性。

技術(shù)領(lǐng)域

本發(fā)明涉及信息技術(shù)領(lǐng)域，尤其涉及一種文本相似度的計(jì)算方法、裝置、電子設(shè)備及存儲介質(zhì)。

背景技術(shù)

隨著計(jì)算機(jī)技術(shù)的飛速發(fā)展和互聯(lián)網(wǎng)的快速普及，人類的信息交流變得越來越方便快捷。

在計(jì)算文本相似度時，現(xiàn)有技術(shù)一般使用余弦相似度或者歐式距離計(jì)算，采用這種方法，沒有考慮到文本中詞項(xiàng)本身的重要程度對相似度的影響，使計(jì)算結(jié)果不準(zhǔn)確。

發(fā)明內(nèi)容

本發(fā)明的主要目的在于提供一種文本相似度的計(jì)算方法、裝置、電子設(shè)備及存儲介質(zhì)，提高文本相似度計(jì)算結(jié)果的準(zhǔn)確性。

為實(shí)現(xiàn)上述目的，本發(fā)明實(shí)施例第一方面提供一種文本相似度的計(jì)算方法，包括：

對待處理的兩條文本分別進(jìn)行分詞處理，得到組成所述兩條文本的兩個詞匯集合；

將所述兩個詞匯集合進(jìn)行并集處理和交集處理，得到所述兩個詞匯集合的并集詞匯和交集詞匯；

分別輸入各所述詞匯至預(yù)先訓(xùn)練的TF-IDF空間向量集合，得出各所述詞匯的權(quán)重值；

基于所述并集詞匯和交集詞匯的權(quán)重值，計(jì)算得出所述兩條文本的相似度。

進(jìn)一步地，所述基于所述并集詞匯和交集詞匯的權(quán)重值，計(jì)算得出所述兩條文本的相似度包括：

輸入所述并集詞匯和交集詞匯的權(quán)重值至如下文本相似度計(jì)算公式，計(jì)算得出所述兩條文本的相似度：

其中，A和B分別表示所述兩條文本，w∈A∩B表示文本A與文本B中的交集詞匯，w∈A∪B表示文本A與文本B中的并集詞匯，w_tf-idf表示詞匯的權(quán)重值，len(A∩B)表示文本A和文本B中交集詞匯的數(shù)量，len(A)表示文本A中詞匯的數(shù)量，len(B)表示文本B中詞匯的數(shù)量，sim(A，B)表示文本A和文本B的相似度。

進(jìn)一步地，所述TF-IDF空間向量集合由多條語料文本訓(xùn)練得出。

進(jìn)一步地，所述TF-IDF空間向量集合由多條語料文本訓(xùn)練得出包括：

對各所述語料文本進(jìn)行預(yù)處理，得到所述語料文本中的特征詞；

通過TF-IDF權(quán)重公式，向量化各所述特征詞，得到所述TF-IDF空間向量集合；

令i表示第i個語料文本，j表示第j個特征詞，tf_ij表示第i個語料文本中第j個特征詞的詞頻，N為語料文本總數(shù)，N_wij表示出現(xiàn)第i個語料文本中第j個特征詞的語料文本數(shù)量，w_ij表示第i個語料文本中第j個特征詞的權(quán)重值，則：

本發(fā)明實(shí)施例第二方面提供一種文本相似度的計(jì)算裝置，包括：

分詞模塊，用于對待處理的兩條文本分別進(jìn)行分詞處理，得到組成所述兩條文本的兩個詞匯集合；

并集處理模塊，用于將所述兩個詞匯集合進(jìn)行并集處理，得到所述兩個詞匯集合的并集詞匯；

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費(fèi)下載。

免登錄下載普通用戶下載升級VIP會員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于武漢斗魚網(wǎng)絡(luò)科技有限公司，未經(jīng)武漢斗魚網(wǎng)絡(luò)科技有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201811551461.2/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。