[發(fā)明專利]文本相似度分析的方法、裝置及存儲(chǔ)介質(zhì)有效
| 申請(qǐng)?zhí)枺?/td> | 202110651197.5 | 申請(qǐng)日: | 2021-06-10 |
| 公開(公告)號(hào): | CN113255369B | 公開(公告)日: | 2023-02-03 |
| 發(fā)明(設(shè)計(jì))人: | 方俊波 | 申請(qǐng)(專利權(quán))人: | 平安國際智慧城市科技股份有限公司 |
| 主分類號(hào): | G06F40/30 | 分類號(hào): | G06F40/30;G06N3/04;G06N3/08 |
| 代理公司: | 深圳中一聯(lián)合知識(shí)產(chǎn)權(quán)代理有限公司 44414 | 代理人: | 路亞芳 |
| 地址: | 518000 廣東省深圳市前海深港合*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 文本 相似 分析 方法 裝置 存儲(chǔ) 介質(zhì) | ||
本申請(qǐng)?zhí)峁┝艘环N文本相似度檢測(cè)的方法、裝置及存儲(chǔ)介質(zhì),適用于大數(shù)據(jù)技術(shù)領(lǐng)域。其中,該文本相似度檢測(cè)的方法,主要包括:獲取與基礎(chǔ)文本中基礎(chǔ)段落相似度最高的一個(gè)或多個(gè)比對(duì)段落;然后,對(duì)基礎(chǔ)段落和比對(duì)段落進(jìn)行切詞獲取短語塊,并計(jì)算各個(gè)短語塊之間的最小編輯距離;再對(duì)最小編輯距離非零的短語塊計(jì)算余弦相似度,確定兩文本的相似內(nèi)容。該方法通過對(duì)文本中表達(dá)不同的短語塊進(jìn)行語義相似度分析,能夠獲得更加準(zhǔn)確的文本相似度檢測(cè)結(jié)果。
技術(shù)領(lǐng)域
本申請(qǐng)涉及大數(shù)據(jù)技術(shù)領(lǐng)域,尤其涉及一種文本相似度檢測(cè)的方法、裝置及存儲(chǔ)介質(zhì)。
背景技術(shù)
目前,由多個(gè)字符所組成的文本已成為一種十分重要的信息載體。文本間相似度的計(jì)算,作為一種文本處理中所經(jīng)常使用的方法,被應(yīng)用于文本聚類、文本檢索、數(shù)據(jù)挖掘等諸多應(yīng)用場(chǎng)合。
現(xiàn)有的一種文本相似度的計(jì)算方式為:先分別對(duì)兩個(gè)長文本進(jìn)行切詞,并獲取切詞后的切詞,然后根據(jù)切詞中的字符組成確定兩文本中各切詞間的相似度,進(jìn)而根據(jù)所得到的相似度以及詞頻計(jì)算文本的整體相似度。
然而,現(xiàn)有的文本相似度的計(jì)算方式主要將表達(dá)相同的內(nèi)容標(biāo)記為相似內(nèi)容,無法消除語義一致,但表達(dá)方式不一致的差異化影響,使得文本相似度的準(zhǔn)確率較低。
發(fā)明內(nèi)容
有鑒于此,本申請(qǐng)實(shí)施例提供了一種文本相似度檢測(cè)的方法、裝置及存儲(chǔ)介質(zhì),以解決現(xiàn)有的文本相似性檢測(cè)方式中無法對(duì)表達(dá)不同的內(nèi)容進(jìn)行語義檢測(cè),使得相似度檢測(cè)結(jié)果準(zhǔn)確性低的問題。
本申請(qǐng)實(shí)施例的第一方面提供了一種文本相似度檢測(cè)的方法方法,包括:獲取輸入的基礎(chǔ)文本和比對(duì)文本,所述基礎(chǔ)文本包括至少一個(gè)基礎(chǔ)段落,所述比對(duì)文本包括至少一個(gè)比對(duì)段落;根據(jù)所述基礎(chǔ)段落和所述比對(duì)段落進(jìn)行切詞,獲取所述基礎(chǔ)段落對(duì)應(yīng)的多個(gè)基礎(chǔ)短語塊,以及所述比對(duì)段落對(duì)應(yīng)的比對(duì)短語塊;計(jì)算所述基礎(chǔ)短語塊和所述比對(duì)短語塊之間的最小編輯距離;當(dāng)所述最小編輯距離為0時(shí),輸出所述基礎(chǔ)短語塊和所述比對(duì)短語塊為相似詞對(duì);當(dāng)所述最小編輯距離不為0時(shí),計(jì)算所述基礎(chǔ)短語塊和所述比對(duì)短語塊的余弦相似度,且當(dāng)所述余弦相似度大于預(yù)設(shè)閾值時(shí),輸出所述基礎(chǔ)短語塊和所述比對(duì)短語塊為相似詞對(duì)。
根據(jù)本申請(qǐng)實(shí)施例提供的文本相似性檢測(cè)的方法,通過對(duì)待檢測(cè)的基礎(chǔ)文本和比對(duì)文本中表達(dá)不同的短語塊進(jìn)行語義相似度分析,獲得更加準(zhǔn)確的文本相似度,并且通過對(duì)兩個(gè)文本中相似通融進(jìn)行聯(lián)動(dòng)顯示,為用戶查看相似內(nèi)容提供便利,提升用戶對(duì)相似內(nèi)容的查看體驗(yàn)。
結(jié)合第一方面,在第一方面的某些實(shí)現(xiàn)方式中,所述方法還包括:根據(jù)分段識(shí)別符分別識(shí)別所述基礎(chǔ)段落和所述比對(duì)段落;將所述基礎(chǔ)段落和所述比對(duì)段落輸入孿生網(wǎng)絡(luò);根據(jù)所述孿生網(wǎng)絡(luò)獲取每個(gè)所述基礎(chǔ)段落對(duì)應(yīng)的相似度最高的N個(gè)所述比對(duì)段落,N為大于或等于1的整數(shù)。
根據(jù)本申請(qǐng)實(shí)施例提供的文本相似度檢測(cè)的方法,通過對(duì)基礎(chǔ)文本和比對(duì)文本進(jìn)行段落劃分,相似度檢測(cè)模型可以逐段讀取數(shù)據(jù),以便按照段落比對(duì)相似內(nèi)容,避免按照整個(gè)長文本比對(duì)內(nèi)容導(dǎo)致的比對(duì)效率低的問題。
結(jié)合第一方面,在第一方面的某些實(shí)現(xiàn)方式中,所述根據(jù)所述基礎(chǔ)段落和所述比對(duì)段落進(jìn)行切詞,獲取所述基礎(chǔ)段落對(duì)應(yīng)的多個(gè)基礎(chǔ)短語塊,以及所述比對(duì)段落對(duì)應(yīng)的比對(duì)短語塊,具體包括:根據(jù)所述基礎(chǔ)段落和所述基礎(chǔ)段落對(duì)應(yīng)的相似度最高的N個(gè)所述比對(duì)段落進(jìn)行切詞,獲取所述基礎(chǔ)段落對(duì)應(yīng)的多個(gè)基礎(chǔ)短語塊,以及所述比對(duì)段落對(duì)應(yīng)的比對(duì)短語塊。
根據(jù)本申請(qǐng)實(shí)施例提供的文本相似度檢測(cè)的方法,通過本步驟中對(duì)基礎(chǔ)段落和比對(duì)段落進(jìn)行切詞,獲取多個(gè)的短語塊,可以便于后續(xù)針對(duì)這些短語塊進(jìn)行相似度檢測(cè),細(xì)化了相似度檢測(cè)的粒度,使相似度檢測(cè)結(jié)果可以具體至行內(nèi)的單個(gè)詞語,相似度檢測(cè)結(jié)果準(zhǔn)確性更高。
結(jié)合第一方面,在第一方面的某些實(shí)現(xiàn)方式中,所述方法還包括:根據(jù)所述相似詞對(duì),對(duì)所述基礎(chǔ)文本和所述比對(duì)文本中的目標(biāo)內(nèi)容進(jìn)行聯(lián)動(dòng)顯示。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于平安國際智慧城市科技股份有限公司,未經(jīng)平安國際智慧城市科技股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110651197.5/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識(shí)別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級(jí)連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 文本生成方法、裝置和電子設(shè)備
- 一種數(shù)據(jù)庫讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





