[發明專利]重復文本的檢測方法及裝置在審
| 申請號: | 201611108388.2 | 申請日: | 2016-12-06 |
| 公開(公告)號: | CN106649221A | 公開(公告)日: | 2017-05-10 |
| 發明(設計)人: | 劉鵬;趙杰;韋強申;李強 | 申請(專利權)人: | 北京銳安科技有限公司 |
| 主分類號: | G06F17/22 | 分類號: | G06F17/22;G06F17/27 |
| 代理公司: | 北京品源專利代理有限公司11332 | 代理人: | 胡彬,鄧猛烈 |
| 地址: | 100044 北京市海淀區西小口*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 重復 文本 檢測 方法 裝置 | ||
技術領域
本發明實施例涉及大數據分析技術領域,尤其涉及一種重復文本的檢測方法及裝置。
背景技術
在互聯網大規模普及的今天,各種資源呈爆炸式增長,越來越龐大的互聯網促進了搜索引擎技術的不斷發展,使它越來越成為人們從網絡上獲取信息的主要手段。但是,互聯網上有大量的重復網頁信息。為了提高搜索引擎提供的搜索結果的有效性,文本的重復檢測就成為了互聯網企業提高搜索引擎質量的關鍵技術。
在文本的重復檢測技術中,一種十分常用的技術就是基于哈希算法而完成的。這種技術已經相當成熟,運行效率和魯棒性都是能夠滿足搜索引擎目前的需要。當時,利用哈希算法完成的文本重復檢測有一個缺點,就是在面對短文本的重復檢測時,會出現運行效率不高的情況。
發明內容
針對上述技術問題,本發明實施例提供了一種重復文本的檢測方法及裝置,以實現對短文本的有效的重復檢測處理。
一方面,本發明實施例提供了一種重復文本的檢測方法,所述方法包括:
獲取待檢測文本;
將所述待檢測文本區分為短文本及長文本;
對所述短文本采用基于文本關聯的重復檢測;
對所述長文本采用基于局部敏感哈希算法的重復檢測。
另一方面,本發明實施例還提供了一種重復文本的檢測裝置,所述裝置包括:
文本獲取模塊,用于獲取待檢測文本;
文本區分模塊,用于將所述待檢測文本區分為短文本及長文本;
短文本檢測模塊,用于對所述短文本采用基于文本關聯的重復檢測;
長文本檢測模塊,用于對所述長文本采用基于局部敏感哈希算法的重復檢測。
本發明實施例提供的重復文本的檢測方法及裝置,通過獲取待檢測文本,將所述待檢測文本區分為短文本及長文本,對所述短文本采用基于文本關聯的重復檢測,對所述長文本采用基于局部敏感哈希算法的重復檢測,實現了對短文本的有效的重復檢測處理。
附圖說明
通過閱讀參照以下附圖所作的對非限制性實施例所作的詳細描述,本發明的其它特征、目的和優點將會變得更明顯:
圖1是本發明第一實施例提供的重復文本的檢測方法的流程圖;
圖2是本發明第二實施例提供的重復文本的檢測裝置的結構圖。
具體實施方式
下面結合附圖和實施例對本發明作進一步的詳細說明。可以理解的是,此處所描述的具體實施例僅僅用于解釋本發明,而非對本發明的限定。另外還需要說明的是,為了便于描述,附圖中僅示出了與本發明相關的部分而非全部結構。
第一實施例
本實施例提供了重復文本的檢測方法的一種技術方案。
參見圖1,重復文本的檢測方法包括:
S11,獲取待檢測文本。
上述對待檢測文本的獲取可以是通過網絡爬蟲程序由互聯網獲取,也可以是從指定的語料數據庫中獲取。
如果通過上述獲取手段獲取到的待檢測文本的正確性難以判斷,則一般在獲取到原始的待檢測文本之后還需要對原始的文本進行一次數據清洗的操作。經過數據清洗之后,保留下來的待檢測文本就是進行重復文本檢測的原始語料。
S12,將所述待檢測文本區分為短文本及長文本。
優選的,可以根據實際的檢測需要預先構造對短文本及長文本進行區分的區分規則。在實際進行短文本及長文本區分時,應用上述規則。
更為優選的,可以預先設定一個區分短文本及長文本的文本長度閾值,當待檢測文本的文本長度大于這個長度閾值時,待檢測文本是長文本,而當待檢測文本的文本長度小于或者這個等于這個長度閾值時,待檢測文本是短文本。
需要理解的是,構建的區分規則可以不僅僅以上述列舉的長度參數作為判定要素,還可以引入除文本長度以外的其他參數作為判定要素。比如,可以將文本內容作為上述區分規則中的判定要素之一。
另外,還可以以預先構建的分類器完成對短文本及長文本的區分。如果以分類器完成長短文本的區分,則分類器的輸入參數可以有多種。比如,分類器的輸入參數可以包括:文本長度、特征語段等。
S13,對所述短文本采用基于文本關聯的重復檢測。
由于對待檢測的短文本直接應用哈希算法,會出現運行效率不高的情況,在本實施例中,采用首先將待檢測的短文本關聯至一個長文本,再根據對長文本應用哈希算法的重復檢測結果,判斷待檢測的短文本是否出現了重復。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京銳安科技有限公司,未經北京銳安科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611108388.2/2.html,轉載請聲明來源鉆瓜專利網。





