[發(fā)明專利]一種文本相似度計(jì)算方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)有效

申請?zhí)枺?/td>	202110431440.2	申請日：	2021-04-21
公開（公告）號(hào)：	CN113076404B	公開（公告）日：	2022-08-23
發(fā)明（設(shè)計(jì)）人：	黃友福;肖龍?jiān)?/a>;李稀敏	申請（專利權(quán)）人：	廈門快商通科技股份有限公司
主分類號(hào)：	G06F16/33	分類號(hào)：	G06F16/33;G06F40/289
代理公司：	廈門市首創(chuàng)君合專利事務(wù)所有限公司 35204	代理人：	連耀忠;李艾華
地址：	361000 福建省廈門市***	國省代碼：	福建;35
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	一種文本相似計(jì)算方法裝置計(jì)算機(jī) 設(shè)備存儲(chǔ) 介質(zhì)
鉆瓜網(wǎng) 技術(shù)展會(huì) 專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

本發(fā)明公開了一種文本相似度計(jì)算方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)，方法包括：計(jì)算第一待匹配語句和第二待匹配語句間的基礎(chǔ)相似度；對第一待匹配語句和第二待匹配語句進(jìn)行分詞，并對分詞后的所有單詞進(jìn)行詞性標(biāo)注；分別對第一待匹配語句和第二待匹配語句分詞后的所有單詞進(jìn)行向量化以獲得詞向量；計(jì)算相似度懲罰系數(shù)；基于基礎(chǔ)相似度和相似度懲罰系數(shù)，獲得第一待匹配語句和第二待匹配語句間的最終相似度。本發(fā)明在計(jì)算文本間相似度時(shí)引入了與單個(gè)詞向量及詞性種類相關(guān)的相似度懲罰系數(shù)，能夠有效降低相似度識(shí)別錯(cuò)誤的概率。

技術(shù)領(lǐng)域

本發(fā)明涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域，具體涉及一種文本相似度計(jì)算方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)。

背景技術(shù)

自然語言處理的過程中，文本相似度計(jì)算是一個(gè)重要的步驟。現(xiàn)有的文本相似度計(jì)算方法有幾種：1、余弦相似度(性)法，通過計(jì)算兩個(gè)向量的夾角余弦值來評估他們的相似度；2、簡單共有詞，通過計(jì)算兩個(gè)文本共有的詞的總字符數(shù)除以最長文檔字符數(shù)來評估他們的相似度；3、編輯距離，又稱Levenshtein距離，是指兩個(gè)字串之間，由一個(gè)轉(zhuǎn)成另一個(gè)所需的最少編輯操作次數(shù)。許可的編輯操作包括將一個(gè)字符替換成另一個(gè)字符，插入一個(gè)字符，刪除一個(gè)字符。一般來說，編輯距離越小，兩個(gè)串的相似度越大；4、歐幾里得距離法，以兩個(gè)文本所以的不重復(fù)詞構(gòu)成0-1向量，并計(jì)算兩個(gè)向量之間的歐式距離來判斷相似度。現(xiàn)有的相似度計(jì)算方法中，只考慮了句子之間的文本相似度，即僅通過字面上有多少重復(fù)的分詞來判斷句子的相似度，這樣容易導(dǎo)致很多內(nèi)涵相差甚遠(yuǎn)的文本被錯(cuò)誤匹配成相似句。

發(fā)明內(nèi)容

本發(fā)明的主要目的在于克服現(xiàn)有技術(shù)中的上述缺陷，提出一種用戶體驗(yàn)好、操作便利的文本相似度計(jì)算方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)，在計(jì)算文本間相似度時(shí)引入了與單個(gè)詞向量及詞性種類相關(guān)的相似度懲罰系數(shù)，能夠有效降低相似度識(shí)別錯(cuò)誤的概率。

本發(fā)明采用如下技術(shù)方案：

一方面，一種文本相似度計(jì)算方法，包括：

計(jì)算第一待匹配語句和第二待匹配語句間的基礎(chǔ)相似度；

對第一待匹配語句和第二待匹配語句進(jìn)行分詞，并對分詞后的每個(gè)單詞進(jìn)行詞性標(biāo)注；

分別對所述第一待匹配語句和所述第二待匹配語句分詞后的每個(gè)單詞進(jìn)行向量化以獲得對應(yīng)的詞向量；

基于所述第一待匹配語句和所述第二待匹配語句中的詞性種類的總數(shù)，以及所述第一待匹配語句的單個(gè)詞向量和所述第二待匹配語句的對應(yīng)詞性的單個(gè)詞向量間的相似度，計(jì)算出相似度懲罰系數(shù)；

基于所述基礎(chǔ)相似度和所述相似度懲罰系數(shù)，獲得所述第一待匹配語句和所述第二待匹配語句間的最終相似度。

在一個(gè)實(shí)施例中，所述對第一待匹配語句和第二待匹配語句進(jìn)行分詞，并對分詞后的每個(gè)單詞進(jìn)行詞性標(biāo)注，具體包括：

利用結(jié)巴分詞對第一待匹配語句和第二待匹配語句進(jìn)行分詞，并對分詞后的每個(gè)單詞進(jìn)行詞性標(biāo)注。

在一個(gè)實(shí)施例中，所述第一待匹配語句和所述第二待匹配語句間的基礎(chǔ)相似度的計(jì)算方法，包括：

余弦相似度法、簡單共有詞法、編輯距離法或歐幾里得距離法。

在一個(gè)實(shí)施例中，當(dāng)使用余弦相似度法計(jì)算所述基礎(chǔ)相似度時(shí)，所述計(jì)算第一待匹配語句和第二待匹配語句間的基礎(chǔ)相似度之前，還包括：

使用word2vec分別計(jì)算所述第一待匹配語句的句向量和所述第二待匹配語句的句向量。

在一個(gè)實(shí)施例中，所述分別對所述第一待匹配語句和所述第二待匹配語句分詞后的每個(gè)單詞進(jìn)行向量化以獲得對應(yīng)的詞向量，具體包括：

使用word2vec分別對所述第一待匹配語句和所述第二待匹配語句分詞后的每個(gè)單詞進(jìn)行向量化以獲得對應(yīng)的詞向量。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會(huì)員可以免費(fèi)下載。

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于廈門快商通科技股份有限公司，未經(jīng)廈門快商通科技股份有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202110431440.2/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

上一篇：一種節(jié)能控制系統(tǒng)和方法
下一篇：一種公路工程用測定微表處攤鋪厚度裝置

同類專利

專利分類

G 物理

G06 計(jì)算；推算；計(jì)數(shù)
G06F 電數(shù)字?jǐn)?shù)據(jù)處理

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

專利文獻(xiàn)下載

說明：

1、專利原文基于中國國家知識(shí)產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實(shí)用新型專利、外觀設(shè)計(jì)專利（升級(jí)中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級(jí)為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進(jìn)行下載，點(diǎn)擊【登陸】【注冊】