[發(fā)明專利]一種文本相似度計(jì)算方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)有效
| 申請?zhí)枺?/td> | 202110431440.2 | 申請日: | 2021-04-21 |
| 公開(公告)號(hào): | CN113076404B | 公開(公告)日: | 2022-08-23 |
| 發(fā)明(設(shè)計(jì))人: | 黃友福;肖龍?jiān)?/a>;李稀敏 | 申請(專利權(quán))人: | 廈門快商通科技股份有限公司 |
| 主分類號(hào): | G06F16/33 | 分類號(hào): | G06F16/33;G06F40/289 |
| 代理公司: | 廈門市首創(chuàng)君合專利事務(wù)所有限公司 35204 | 代理人: | 連耀忠;李艾華 |
| 地址: | 361000 福建省廈門市*** | 國省代碼: | 福建;35 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 文本 相似 計(jì)算方法 裝置 計(jì)算機(jī) 設(shè)備 存儲(chǔ) 介質(zhì) | ||
本發(fā)明公開了一種文本相似度計(jì)算方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì),方法包括:計(jì)算第一待匹配語句和第二待匹配語句間的基礎(chǔ)相似度;對第一待匹配語句和第二待匹配語句進(jìn)行分詞,并對分詞后的所有單詞進(jìn)行詞性標(biāo)注;分別對第一待匹配語句和第二待匹配語句分詞后的所有單詞進(jìn)行向量化以獲得詞向量;計(jì)算相似度懲罰系數(shù);基于基礎(chǔ)相似度和相似度懲罰系數(shù),獲得第一待匹配語句和第二待匹配語句間的最終相似度。本發(fā)明在計(jì)算文本間相似度時(shí)引入了與單個(gè)詞向量及詞性種類相關(guān)的相似度懲罰系數(shù),能夠有效降低相似度識(shí)別錯(cuò)誤的概率。
技術(shù)領(lǐng)域
本發(fā)明涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,具體涉及一種文本相似度計(jì)算方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)。
背景技術(shù)
自然語言處理的過程中,文本相似度計(jì)算是一個(gè)重要的步驟。現(xiàn)有的文本相似度計(jì)算方法有幾種:1、余弦相似度(性)法,通過計(jì)算兩個(gè)向量的夾角余弦值來評估他們的相似度;2、簡單共有詞,通過計(jì)算兩個(gè)文本共有的詞的總字符數(shù)除以最長文檔字符數(shù)來評估他們的相似度;3、編輯距離,又稱Levenshtein距離,是指兩個(gè)字串之間,由一個(gè)轉(zhuǎn)成另一個(gè)所需的最少編輯操作次數(shù)。許可的編輯操作包括將一個(gè)字符替換成另一個(gè)字符,插入一個(gè)字符,刪除一個(gè)字符。一般來說,編輯距離越小,兩個(gè)串的相似度越大;4、歐幾里得距離法,以兩個(gè)文本所以的不重復(fù)詞構(gòu)成0-1向量,并計(jì)算兩個(gè)向量之間的歐式距離來判斷相似度。現(xiàn)有的相似度計(jì)算方法中,只考慮了句子之間的文本相似度,即僅通過字面上有多少重復(fù)的分詞來判斷句子的相似度,這樣容易導(dǎo)致很多內(nèi)涵相差甚遠(yuǎn)的文本被錯(cuò)誤匹配成相似句。
發(fā)明內(nèi)容
本發(fā)明的主要目的在于克服現(xiàn)有技術(shù)中的上述缺陷,提出一種用戶體驗(yàn)好、操作便利的文本相似度計(jì)算方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì),在計(jì)算文本間相似度時(shí)引入了與單個(gè)詞向量及詞性種類相關(guān)的相似度懲罰系數(shù),能夠有效降低相似度識(shí)別錯(cuò)誤的概率。
本發(fā)明采用如下技術(shù)方案:
一方面,一種文本相似度計(jì)算方法,包括:
計(jì)算第一待匹配語句和第二待匹配語句間的基礎(chǔ)相似度;
對第一待匹配語句和第二待匹配語句進(jìn)行分詞,并對分詞后的每個(gè)單詞進(jìn)行詞性標(biāo)注;
分別對所述第一待匹配語句和所述第二待匹配語句分詞后的每個(gè)單詞進(jìn)行向量化以獲得對應(yīng)的詞向量;
基于所述第一待匹配語句和所述第二待匹配語句中的詞性種類的總數(shù),以及所述第一待匹配語句的單個(gè)詞向量和所述第二待匹配語句的對應(yīng)詞性的單個(gè)詞向量間的相似度,計(jì)算出相似度懲罰系數(shù);
基于所述基礎(chǔ)相似度和所述相似度懲罰系數(shù),獲得所述第一待匹配語句和所述第二待匹配語句間的最終相似度。
在一個(gè)實(shí)施例中,所述對第一待匹配語句和第二待匹配語句進(jìn)行分詞,并對分詞后的每個(gè)單詞進(jìn)行詞性標(biāo)注,具體包括:
利用結(jié)巴分詞對第一待匹配語句和第二待匹配語句進(jìn)行分詞,并對分詞后的每個(gè)單詞進(jìn)行詞性標(biāo)注。
在一個(gè)實(shí)施例中,所述第一待匹配語句和所述第二待匹配語句間的基礎(chǔ)相似度的計(jì)算方法,包括:
余弦相似度法、簡單共有詞法、編輯距離法或歐幾里得距離法。
在一個(gè)實(shí)施例中,當(dāng)使用余弦相似度法計(jì)算所述基礎(chǔ)相似度時(shí),所述計(jì)算第一待匹配語句和第二待匹配語句間的基礎(chǔ)相似度之前,還包括:
使用word2vec分別計(jì)算所述第一待匹配語句的句向量和所述第二待匹配語句的句向量。
在一個(gè)實(shí)施例中,所述分別對所述第一待匹配語句和所述第二待匹配語句分詞后的每個(gè)單詞進(jìn)行向量化以獲得對應(yīng)的詞向量,具體包括:
使用word2vec分別對所述第一待匹配語句和所述第二待匹配語句分詞后的每個(gè)單詞進(jìn)行向量化以獲得對應(yīng)的詞向量。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于廈門快商通科技股份有限公司,未經(jīng)廈門快商通科技股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110431440.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識(shí)別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級(jí)連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 文本生成方法、裝置和電子設(shè)備
- 電網(wǎng)理論線損的計(jì)算方法和系統(tǒng)
- 一種基于XML的小衛(wèi)星遙測參數(shù)衍生計(jì)算方法
- 一種基于多尺度耦合的并行進(jìn)程合并方法及系統(tǒng)
- 一種注采井網(wǎng)流場速度的快速計(jì)算方法
- 一種自適應(yīng)實(shí)時(shí)火星系統(tǒng)星歷計(jì)算方法
- 基于分類模型的合同費(fèi)用計(jì)算方法、裝置及計(jì)算機(jī)設(shè)備
- 一種超越函數(shù)計(jì)算方法及裝置
- 計(jì)算方法決定系統(tǒng)、計(jì)算方法決定方法、記錄介質(zhì)
- 一種混合湍流計(jì)算方法
- 一種基于芯片檢測的HRD評分計(jì)算方法





