[發(fā)明專利]一種基于多模型算法的文本去重方法、及其相關(guān)設(shè)備在審
| 申請?zhí)枺?/td> | 202210997003.1 | 申請日: | 2022-08-19 |
| 公開(公告)號: | CN115344685A | 公開(公告)日: | 2022-11-15 |
| 發(fā)明(設(shè)計)人: | 徐耀宗 | 申請(專利權(quán))人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06F16/335 | 分類號: | G06F16/335;G06F16/33;G06F16/25;G06F16/215;G06K9/62;G06F40/30;G06F40/284;G06F40/289 |
| 代理公司: | 深圳市世聯(lián)合知識產(chǎn)權(quán)代理有限公司 44385 | 代理人: | 姜妍 |
| 地址: | 518000 廣東省深圳市福田區(qū)福*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 模型 算法 文本 方法 及其 相關(guān) 設(shè)備 | ||
1.一種基于多模型算法的文本去重方法,其特征在于,包括下述步驟:
獲取目標坐席的待去重文本;
判斷所述待去重文本是否包括第一類待去重文本或第二類待去重文本;
若所述待去重文本中包括所述第一類待去重文本,則對所述第一類待去重文本進行全量去重;
若所述待去重文本中包括所述第二類待去重文本,則通過simhash算法提取所述第二類待去重文本的特征文本并進行哈希計算,得到特征指紋值;
對所述特征指紋值進行分箱,將分箱后得到的多段待查詢特征指紋值分別進行檢索去重。
2.根據(jù)權(quán)利要求1所述的基于多模型算法的文本去重方法,其特征在于,在所述獲取坐席的待去重文本的步驟之前,還包括步驟:
通過計算引擎訪問底層數(shù)據(jù)庫,將所述底層數(shù)據(jù)庫中存儲的所有坐席的歷史溝通文本加載到計算內(nèi)存中,其中,所述所有坐席的歷史溝通文本中包括所述目標坐席的所述待去重文本,且每條歷史溝融文本包含有對應(yīng)坐席的識別標簽;
基于所述識別標簽對所述計算內(nèi)存中所有坐席的歷史溝通文本進行劃分,得到每個坐席的歷史溝通文本。
3.根據(jù)權(quán)利要求1所述的基于多模型算法的文本去重方法,其特征在于,所述判斷所述待去重文本是否包括第一類待去重文本或第二類待去重文本的步驟具體包括:
判斷所述目標坐席的所述待去重文本中是否包括文本長度小于預(yù)設(shè)長度閾值的文本;
判斷所述目標坐席的所述待去重文本中是否包括非中文文本;
若所述目標坐席的所述待去重文本中包括文本長度未達到所述預(yù)設(shè)長度閾值的文本/所述目標坐席的所述待去重文本中包括所述非中文文本,則確定所述待去重文本中包括所述第一類待去重文本;
若所述目標坐席的所述待去重文本中包括文本長度達到所述預(yù)設(shè)長度閾值的文本,則確定所述待去重文本中包括所述第二類待去重文本。
4.根據(jù)權(quán)利要求3所述的基于多模型算法的文本去重方法,其特征在于,所述對所述第一類待去重文本進行全量去重:
通過集合容器對所述非中文文本/所述文本長度小于預(yù)設(shè)長度閾值的文本進行全量去重,將所述第一類待去重文本中存在完全重復(fù)的文本進行過濾。
5.根據(jù)權(quán)利要求1所述的基于多模型算法的文本去重方法,其特征在于,所述通過simhash算法提取所述第二類待去重文本的特征文本并進行哈希計算,得到特征指紋值的步驟具體包括:
通過所述simhash算法中的分詞器對所述第二類待去重文本進行分詞,得到多個文本詞組;
基于所述分詞器自帶的API接口,通過TF-IDF算法從所述多個文本詞組中提取多個所述特征文本;
基于hash函數(shù)分別計算多個所述特征文本的哈希值;
對每個所述特征文本的所述哈希值進行加權(quán),并基于多個所述特征文本的順序?qū)⒓訖?quán)結(jié)果進行合并與降維處理,得到所述特征指紋值。
6.根據(jù)權(quán)利要求1所述的基于多模型算法的文本去重方法,其特征在于,所述對所述特征指紋值進行分箱,將分箱后得到的多段待查詢特征指紋值分別進行檢索去重的步驟具體包括:
基于所述特征指紋值的長度確定單位分箱長度,根據(jù)所述單位分箱長度對所述特征指紋值進行分箱,得到多段所述待查詢特征指紋值;
對每段所述待查詢特征指紋值進行檢索,若均未查詢到相同的待去重特征指紋值,則保留對應(yīng)均未查詢到相同的特征指紋值的所述第二類待去重文本;
若檢索到與多段所述待查詢特征指紋值中存在任意一段相同,則基于所述特征指紋值計算相同的兩段所述待查詢特征指紋值的差異點;
若所述差異點不滿足預(yù)設(shè)差異點,則對所述差異點不滿足所述預(yù)設(shè)差異點的兩段所述待查詢特征指紋值對應(yīng)的第二類待去重文本進行去重。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于平安科技(深圳)有限公司,未經(jīng)平安科技(深圳)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210997003.1/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





