[發(fā)明專利]相似文本匹配方法、裝置、電子設(shè)備及存儲介質(zhì)有效
| 申請?zhí)枺?/td> | 202110320474.4 | 申請日: | 2021-03-25 |
| 公開(公告)號: | CN112883730B | 公開(公告)日: | 2023-01-17 |
| 發(fā)明(設(shè)計)人: | 周瑯;杜佳輝 | 申請(專利權(quán))人: | 平安國際智慧城市科技股份有限公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/216;G06F40/242;G06F40/30 |
| 代理公司: | 深圳市沃德知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
| 地址: | 518000 廣東省深圳市前海深港合*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 相似 文本 匹配 方法 裝置 電子設(shè)備 存儲 介質(zhì) | ||
本發(fā)明涉及文本處理技術(shù),揭露了一種相似文本匹配方法,包括:按照文本主題對獲取的文本集合中各文本進行分類,得到分類文本;利用實體特征提取模型提取分類文本的實體特征要素,并根據(jù)實體特征要素生成分類文本的索引數(shù)據(jù)表;對目標(biāo)文本進行實體要素特征提取,得到目標(biāo)實體特征要素;根據(jù)目標(biāo)實體特征要素在索引數(shù)據(jù)表中進行多重要素匹配,得到匹配實體特征要素;將匹配實體特征要素對應(yīng)的分類文本匯集為目標(biāo)文本的相似文本。此外,本發(fā)明還涉及區(qū)塊鏈技術(shù),所述文本集合可存儲于區(qū)塊鏈的節(jié)點。本發(fā)明還提出一種相似文本匹配裝置、電子設(shè)備以及計算機可讀存儲介質(zhì)。本發(fā)明可以解決相似文本匹配時效率較低的問題。
技術(shù)領(lǐng)域
本發(fā)明涉及文本處理技術(shù)領(lǐng)域,尤其涉及一種相似文本匹配方法、裝置、電子設(shè)備及計算機可讀存儲介質(zhì)。
背景技術(shù)
相似文本匹配技術(shù)已經(jīng)在人們?nèi)粘I钪械玫皆絹碓蕉嗟膽?yīng)用,例如,在法律領(lǐng)域,律師或相關(guān)人員面對著越來越多需要處理的案件,但新案件往往與歷史案件存在著一定的相似,因此歷史案件可以被人們借鑒,以實現(xiàn)對新案件的高效處理。
目前主要的相似文本匹配方法多為基于文章語義的相似文本匹配,即提取文本中的句子含義,將不同文本之間的句子含義進行對比分析,得到文本之間的相似度,但面對著大量文本以及每個文本中包含的大量信息,對每個文本進行語義分析會占用大量的計算資源,導(dǎo)致相似文本匹配的效率低下。
發(fā)明內(nèi)容
本發(fā)明提供一種相似文本匹配方法、裝置及計算機可讀存儲介質(zhì),其主要目的在于解決相似文本匹配時效率較低的問題。
為實現(xiàn)上述目的,本發(fā)明提供的一種相似文本匹配方法,包括:
獲取文本集合,按照文本主題對所述文本集合中各文本進行分類,得到分類文本;
利用預(yù)先訓(xùn)練的實體特征提取模型提取所述分類文本的實體特征要素,并根據(jù)所述實體特征要素生成所述分類文本的索引數(shù)據(jù)表;
獲取目標(biāo)文本,對所述目標(biāo)文本進行實體要素特征提取,得到目標(biāo)實體特征要素;
根據(jù)所述目標(biāo)實體特征要素在所述索引數(shù)據(jù)表中進行多重要素匹配,得到匹配實體特征要素;
將所述匹配實體特征要素對應(yīng)的分類文本匯集為所述目標(biāo)文本的相似文本。
可選地,所述按照文本主題對所述文本集合中各文本進行分類,得到分類文本,包括:
對所述文本集合中各文本進行分詞處理,得到文本分詞;
對所述文本分詞進行詞頻統(tǒng)計,得到分詞詞頻;
根據(jù)所述分詞詞頻計算所述文本分詞的分詞權(quán)重;
確定所述分詞權(quán)重大于預(yù)設(shè)的權(quán)重閾值的文本分詞為所述文本集合中對應(yīng)文本的主題詞;
按照所述主題詞將所述文本集合中的文本進行分類,得到分類文本。
可選地,所述對所述文本集合中各文本進行分詞處理,得到文本分詞,包括:
遍歷所述文本集合中各文本以確定各文本中斷句符號的位置;
根據(jù)所述斷句符號的位置將所述文本集合中各文本分解為多個單獨句子;
利用預(yù)設(shè)標(biāo)準(zhǔn)詞典將所述多個單獨句子分別進行單詞切分,得到文本分詞。
可選地,所述根據(jù)所述實體特征要素生成所述分類文本的索引數(shù)據(jù)表,包括:
構(gòu)建空白數(shù)據(jù)表;
將所述分類文本的文本類別作為所述空白數(shù)據(jù)表的表名,將所述分類文本的實體特征要素作為所述空白數(shù)據(jù)表的主鍵,得到索引數(shù)據(jù)表。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于平安國際智慧城市科技股份有限公司,未經(jīng)平安國際智慧城市科技股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110320474.4/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





