[發明專利]文本去重方法及裝置在審
| 申請號: | 201811173826.2 | 申請日: | 2018-10-09 |
| 公開(公告)號: | CN109241505A | 公開(公告)日: | 2019-01-18 |
| 發明(設計)人: | 唐梓毅;汪冠春;胡一川;張海雷 | 申請(專利權)人: | 北京奔影網絡科技有限公司 |
| 主分類號: | G06F17/22 | 分類號: | G06F17/22;G06F16/33 |
| 代理公司: | 北京卓唐知識產權代理有限公司 11541 | 代理人: | 唐海力;李志剛 |
| 地址: | 100083 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 去重 文本特征 預設 申請 保留 哈希 網站 | ||
本申請公開了一種文本去重方法及裝置。該方法包括通過計算待處理文本的相似哈希值得到相似文本對;判斷所述相似文本對中的預設文本特征是否相同;如果判斷所述相似文本對中的預設文本特征相同,則保留所述相似文本對中的一條文本;以及如果判斷所述相似文本對中的預設文本特征不同,則保留所述相似文本對。本申請解決了字面相近的文本去重效果較差的技術問題。通過本申請可以快速、準確地進行文本去重。此外,本申請特別適用于網站中標書類的文本去重。
技術領域
本申請涉及文本處理領域,具體而言,涉及一種文本去重方法及裝置。
背景技術
文本去重,通常是指針對目標文本進行的去除重復出現的詞匯、語句或者標題等。
發明人發現,在一些特殊文本要求場景下,比如文件標書。通常使用的文本去重方法無法針對字面相近程度較高的文本對進行區分。
針對相關技術中字面相近的文本去重效果較差的問題,目前尚未提出有效的解決方案。
發明內容
本申請的主要目的在于提供一種文本去重方法及裝置,以解決字面相近的文本去重效果較差的問題。
為了實現上述目的,根據本申請的一個方面,提供了一種文本去重方法。
根據本申請的文本去重方法包括:通過計算待處理文本的相似哈希值得到相似文本對;判斷所述相似文本對中的預設文本特征是否相同;如果判斷所述相似文本對中的預設文本特征相同,則保留所述相似文本對中的一條文本;以及如果判斷所述相似文本對中的預設文本特征不同,則保留所述相似文本對。
進一步地,通過計算待處理文本的相似哈希值得到相似文本對包括:計算待處理文本中標題的相似哈希值;抽取所述待處理文本中的預設文本特征并建立特征索引;以及通過所述特征索引在所述相似哈希值中搜索出距離小于閾值的文檔對,得到相似文本對。
進一步地,判斷所述相似文本對中的預設文本特征是否相同包括:所述相似文本對為通過計算項目招標文本的相似哈希值得到的相似文本對時,判斷所述相似文本對中的網站來源是否相同;如果判斷所述相似文本對中的網站來源相同,則判斷所述相似文本對中的項目編號是否相同;如果判斷所述相似文本對中的項目編號相同,則判斷所述相似文本對中的公告類型是否相同。
進一步地,通過計算待處理文本的相似哈希值得到相似文本對之前還包括:計算待處理文檔中的標題的相似哈希值;判斷所述相似哈希值是否滿足預設相似文本對的條件;如果判斷所述相似哈希值不滿足預設相似文本對的條件,則認為待處理文檔中不存在重復文檔并保留所述待處理文檔。
進一步地,如果判斷所述相似文本對中的預設文本特征相同,則保留所述相似文本對中的一條文本包括:如果判斷所述相似文本對中的預設文本特征相同,則認為文檔重復并根據預設規則保留相似文本對中的一條文本;如果判斷所述相似文本對中的預設文本特征不同,則保留所述相似文本對包括:如果判斷所述相似文本對中的預設文本特征不同,則認為文檔不重復并將所述保留相似文本對中的文本都保留。
為了實現上述目的,根據本申請的另一方面,提供了一種文本去重裝置。
根據本申請的文本去重裝置包括:計算模塊,用于通過計算待處理文本的相似哈希值得到相似文本對;判斷模塊,用于判斷所述相似文本對中的預設文本特征是否相同;第一處理模塊,用于判斷所述相似文本對中的預設文本特征相同時,保留所述相似文本對中的一條文本;以及第二處理模塊,用于判斷所述相似文本對中的預設文本特征不同時,保留所述相似文本對。
進一步地,所述計算模塊包括:第一計算單元,用于計算待處理文本中標題的相似哈希值;抽取單元,用于抽取所述待處理文本中的預設文本特征并建立特征索引;以及搜索單元,用于通過所述特征索引在所述相似哈希值中搜索出距離小于閾值的文檔對,得到相似文本對。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京奔影網絡科技有限公司,未經北京奔影網絡科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811173826.2/2.html,轉載請聲明來源鉆瓜專利網。





