[發(fā)明專利]文本去重的方法、裝置以及存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 202110891600.1 | 申請日: | 2021-08-04 |
| 公開(公告)號: | CN113688629A | 公開(公告)日: | 2021-11-23 |
| 發(fā)明(設(shè)計)人: | 金博昊;陳凌云;李寧;徐彬;陳炎;湯鑫;張文琰;李明旭;李文婷;陳旭;馬麗媛 | 申請(專利權(quán))人: | 德邦證券股份有限公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F16/35;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 北京萬思博知識產(chǎn)權(quán)代理有限公司 11694 | 代理人: | 劉冀 |
| 地址: | 200120 上海市浦東*** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 文本 方法 裝置 以及 存儲 介質(zhì) | ||
本申請公開了一種文本去重的方法、裝置以及存儲介質(zhì)。其中,文本去重的方法,包括:根據(jù)預(yù)先設(shè)置的分類模型,對獲取的資訊海量文本進行分類,確定多個第一海量文本;利用預(yù)先設(shè)置的局部哈希敏感算法,對第一海量文本集合進行文本去重,確定第二海量文本集合,其中第一海量文本集合中的文本包括文本內(nèi)容以及文本標題;利用局部哈希敏感算法,根據(jù)第二海量文本集合中的文本標題對第二海量文本集合進行去重,確定第三海量文本集合;以及利用局部哈希敏感算法,根據(jù)第三海量文本集合中的文本內(nèi)容對第三海量文本集合進行去重,確定第四海量文本集合。
技術(shù)領(lǐng)域
本申請涉及文本去重技術(shù)部領(lǐng)域,特別是涉及一種文本去重的方法、裝置以及存儲介質(zhì)。
背景技術(shù)
隨著物聯(lián)網(wǎng)的發(fā)展,每日的咨詢越來越多,因此存在獲取的資訊存在相似的現(xiàn)象。例如每日獲取的新聞資訊之間會存在描述同一事件的相似新聞,現(xiàn)有的對每日資訊進行去重的方法是計算每條資訊的哈希值并用SimHash做對比處理,實際去重效果和效率并不理想。
針對上述的現(xiàn)有技術(shù)中存在的現(xiàn)有的對每日資訊的文本進行去重的方法,存在文本去重的效果和效率低的技術(shù)問題,目前尚未提出有效的解決方案。
發(fā)明內(nèi)容
本公開的實施例提供了一種文本去重的方法、裝置以及存儲介質(zhì),以至少解決現(xiàn)有技術(shù)中存在的現(xiàn)有的對每日資訊的文本進行去重的方法,存在文本去重的效果和效率低的技術(shù)問題。
根據(jù)本公開實施例的一個方面,提供了一種文本去重的方法,包括:根據(jù)預(yù)先設(shè)置的分類模型,對獲取的資訊海量文本進行分類,確定多個第一海量文本;利用預(yù)先設(shè)置的局部哈希敏感算法,對第一海量文本集合進行文本去重,確定第二海量文本集合,其中第一海量文本集合中的文本包括文本內(nèi)容以及文本標題;利用局部哈希敏感算法,根據(jù)第二海量文本集合中的文本標題對第二海量文本集合進行去重,確定第三海量文本集合;以及利用局部哈希敏感算法,根據(jù)第三海量文本集合中的文本內(nèi)容對第三海量文本集合進行去重,確定第四海量文本集合。
根據(jù)本公開實施例的另一個方面,還提供了一種存儲介質(zhì),存儲介質(zhì)包括存儲的程序,其中,在程序運行時由處理器執(zhí)行以上任意一項所述的方法。
根據(jù)本公開實施例的另一個方面,還提供了一種文本去重的裝置,包括:第一確定模塊,用于根據(jù)預(yù)先設(shè)置的分類模型,對獲取的資訊海量文本進行分類,確定多個第一海量文本;第二確定模塊,用于利用預(yù)先設(shè)置的局部哈希敏感算法,對第一海量文本集合進行文本去重,確定第二海量文本集合,其中第一海量文本集合中的文本包括文本內(nèi)容以及文本標題;第三確定模塊,用于利用局部哈希敏感算法,根據(jù)第二海量文本集合中的文本標題對第二海量文本集合進行去重,確定第三海量文本集合;以及第四確定模塊,用于利用局部哈希敏感算法,根據(jù)第三海量文本集合中的文本內(nèi)容對第三海量文本集合進行去重,確定第四海量文本集合。
根據(jù)本公開實施例的另一個方面,還提供了一種文本去重的裝置,包括:處理器;以及存儲器,與處理器連接,用于為處理器提供處理以下處理步驟的指令:根據(jù)預(yù)先設(shè)置的分類模型,對獲取的資訊海量文本進行分類,確定多個第一海量文本;利用預(yù)先設(shè)置的局部哈希敏感算法,對第一海量文本集合進行文本去重,確定第二海量文本集合,其中第一海量文本集合中的文本包括文本內(nèi)容以及文本標題;利用局部哈希敏感算法,根據(jù)第二海量文本集合中的文本標題對第二海量文本集合進行去重,確定第三海量文本集合;以及利用局部哈希敏感算法,根據(jù)第三海量文本集合中的文本內(nèi)容對第三海量文本集合進行去重,確定第四海量文本集合。
在本公開實施例中,利用局部敏感哈希算法對海量文本進行初步去重,然后在基于文本的文本標題進行進一步去重,最后在基于文本的文本內(nèi)容進行文本去重,達到了文本的有效去重的技術(shù)效果。進而解決了現(xiàn)有技術(shù)中存在的現(xiàn)有的對每日資訊的文本進行去重的方法,存在文本去重的效果和效率低的技術(shù)問題。
附圖說明
此處所說明的附圖用來提供對本公開的進一步理解,構(gòu)成本申請的一部分,本公開的示意性實施例及其說明用于解釋本公開,并不構(gòu)成對本公開的不當限定。在附圖中:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于德邦證券股份有限公司,未經(jīng)德邦證券股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110891600.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





