[發明專利]文本去重方法及裝置在審
| 申請號: | 201811173826.2 | 申請日: | 2018-10-09 |
| 公開(公告)號: | CN109241505A | 公開(公告)日: | 2019-01-18 |
| 發明(設計)人: | 唐梓毅;汪冠春;胡一川;張海雷 | 申請(專利權)人: | 北京奔影網絡科技有限公司 |
| 主分類號: | G06F17/22 | 分類號: | G06F17/22;G06F16/33 |
| 代理公司: | 北京卓唐知識產權代理有限公司 11541 | 代理人: | 唐海力;李志剛 |
| 地址: | 100083 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 去重 文本特征 預設 申請 保留 哈希 網站 | ||
1.一種文本去重方法,其特征在于,包括:
通過計算待處理文本的相似哈希值得到相似文本對;
判斷所述相似文本對中的預設文本特征是否相同;
如果判斷所述相似文本對中的預設文本特征相同,則保留所述相似文本對中的一條文本;以及
如果判斷所述相似文本對中的預設文本特征不同,則保留所述相似文本對。
2.根據權利要求1所述的文本去重方法,其特征在于,通過計算待處理文本的相似哈希值得到相似文本對包括:
計算待處理文本中標題的相似哈希值;
抽取所述待處理文本中的預設文本特征并建立特征索引;以及
通過所述特征索引在所述相似哈希值中搜索出距離小于閾值的文檔對,得到相似文本對。
3.根據權利要求1所述的文本去重方法,其特征在于,判斷所述相似文本對中的預設文本特征是否相同包括:
所述相似文本對為通過計算項目招標文本的相似哈希值得到的相似文本對時,判斷所述相似文本對中的網站來源是否相同;
如果判斷所述相似文本對中的網站來源相同,則判斷所述相似文本對中的項目編號是否相同;
如果判斷所述相似文本對中的項目編號相同,則判斷所述相似文本對中的公告類型是否相同。
4.根據權利要求1所述的文本去重方法,其特征在于,通過計算待處理文本的相似哈希值得到相似文本對之前還包括:
計算待處理文檔中的標題的相似哈希值;
判斷所述相似哈希值是否滿足預設相似文本對的條件;
如果判斷所述相似哈希值不滿足預設相似文本對的條件,則認為待處理文檔中不存在重復文檔并保留所述待處理文檔。
5.根據權利要求1所述的文本去重方法,其特征在于,
如果判斷所述相似文本對中的預設文本特征相同,則保留所述相似文本對中的一條文本包括:
如果判斷所述相似文本對中的預設文本特征相同,則認為文檔重復并根據預設規則保留相似文本對中的一條文本;
如果判斷所述相似文本對中的預設文本特征不同,則保留所述相似文本對包括:
如果判斷所述相似文本對中的預設文本特征不同,則認為文檔不重復并將所述保留相似文本對中的文本都保留。
6.一種文本去重裝置,其特征在于,包括:
計算模塊,用于通過計算待處理文本的相似哈希值得到相似文本對;
判斷模塊,用于判斷所述相似文本對中的預設文本特征是否相同;
第一處理模塊,用于判斷所述相似文本對中的預設文本特征相同時,保留所述相似文本對中的一條文本;以及
第二處理模塊,用于判斷所述相似文本對中的預設文本特征不同時,保留所述相似文本對。
7.根據權利要求6所述的文本去重裝置,其特征在于,所述計算模塊包括:
第一計算單元,用于計算待處理文本中標題的相似哈希值;
抽取單元,用于抽取所述待處理文本中的預設文本特征并建立特征索引;以及
搜索單元,用于通過所述特征索引在所述相似哈希值中搜索出距離小于閾值的文檔對,得到相似文本對。
8.根據權利要求6所述的文本去重裝置,其特征在于,判斷模塊包括:
第一判斷單元,用于所述相似文本對為通過計算項目招標文本的相似哈希值得到的相似文本對時,判斷所述相似文本對中的網站來源是否相同;
第二判斷單元,用于判斷所述相似文本對中的網站來源相同時,判斷所述相似文本對中的項目編號是否相同;
第三判斷單元,用于如果判斷所述相似文本對中的項目編號相同時,判斷所述相似文本對中的公告類型是否相同。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京奔影網絡科技有限公司,未經北京奔影網絡科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811173826.2/1.html,轉載請聲明來源鉆瓜專利網。





