[發(fā)明專利]文本消重系統(tǒng)和方法有效
| 申請?zhí)枺?/td> | 201210227111.7 | 申請日: | 2012-06-29 |
| 公開(公告)號: | CN102779188A | 公開(公告)日: | 2012-11-14 |
| 發(fā)明(設(shè)計)人: | 盧宏林 | 申請(專利權(quán))人: | 北京奇虎科技有限公司;奇智軟件(北京)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京路浩知識產(chǎn)權(quán)代理有限公司 11002 | 代理人: | 王瑩 |
| 地址: | 100088 北京北京市西城區(qū)*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 文本 系統(tǒng) 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及搜索引擎中的文本消重,特別涉及文本消重系統(tǒng)和方法。
背景技術(shù)
文本消重是搜索引擎中基本需求之一。目前常用的消重方法有基于中心詞的消重方法,和針對全部文本或部分文本進行哈希計算消重等。
目前常用的手段是基于中心詞的消重方法。提取文本中的中心詞,然后利用中心詞進行消重,這樣文本中即使進行了一定內(nèi)容的修改,只要中心詞沒有改變,就可以發(fā)現(xiàn)是重復內(nèi)容。
但是基于中心詞的消重方法缺點是明顯的,很容易把原本無關(guān)的文章判定為重復:比如在一些專業(yè)類的文章中,中心詞消重往往錯誤率比較高。如體育比賽中相同球隊的新聞,由于球隊名稱,教練隊員的名稱,所屬俱樂部,所屬城市,打法等內(nèi)容相對固定,不管球隊是一年甚至幾年內(nèi)的不同比賽內(nèi)容,提取出的中心詞往往都比較相似。利用中心詞消重就很有可能把毫不相干的兩場比賽的文章判定為重復。
另外,上述方法容易把本來是相同的文章判定為不重復:比如不同網(wǎng)站在轉(zhuǎn)載同一篇文章時,有的網(wǎng)站會把文章的內(nèi)容放的一個頁面里,而有的網(wǎng)站會把內(nèi)容切分為幾部分,每一部分使用一個單獨的頁面。這樣,在抽取中心詞時,由于兩個網(wǎng)站的頁面長度不同,抽取出的中心詞也會不同,因此會把本來相同的文章判斷為不重復的頁面。
上述技術(shù)方案基于與語言相關(guān):在提取中心詞時首先需要進行分詞,而分詞是語言相關(guān)的。對中文的分詞方法與英文不同。因此,對中文適用的中心詞消重方法在外文上無法使用。
發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問題是現(xiàn)有技術(shù)的消重準確性低,容錯性差的問題。
一種文本消重系統(tǒng),所述系統(tǒng)包括:
分割模塊,適于將目標文本和待比較文本依據(jù)分割符號分割成分割段,并將目標文本和待比較文本的分割段按相同的方式組成序列;
哈希值計算模塊,適于在目標文本中選定目標序列,計算出目標序列的哈希值以及待比較文本中全部或部分序列的哈希值;
消重模塊,適于將所述比較序列的哈希值依次與待比較文本中序列的哈希值相比較,如果存在相同的哈希值,則執(zhí)行消重操作。
其中,所述分割符號包括ASCII碼中的符號和/或中文全角/半角標點符號。
其中,所述分割符號為一個或一個以上。
其中,所述消重模塊進一步包括:
文本標記單元,適于對重復的文本標記重復記號;和/或
文本刪除單元,適于對重復的文本進行刪除操作。
其中,所述序列由一個分割段或兩個以上連續(xù)的分割段組成。
其中,所述待比較文本如果只計算部分序列的哈希值,則目標序列在目標文本中的選定位置與待比較文本中部分序列的位置相對應。
其中,所述分割模塊進一步包括分割段閾值設(shè)定模塊,適于依據(jù)統(tǒng)計數(shù)據(jù)獲得組成序列的分割段數(shù)量。
其中,所述消重模塊進一步包括一多目標序列比較單元,適于當所述目標序列的個數(shù)大于1時,依次將每個目標序列的哈希值與待比較文本中的序列相比較。
一種文本消重訪法,所述方法包括:
將目標文本和待比較文本依據(jù)分割符號分割成分割段,并將目標文本和待比較文本的分割段按相同的方式組成序列;
在目標文本中選定目標序列,計算出目標序列的哈希值以及待比較文本中全部或部分序列的哈希值;
將所述比較序列的哈希值依次與待比較文本中序列的哈希值相比較,如果存在相同的哈希值,則執(zhí)行消重操作。
其中,所述分割符號包括ASCII碼中的符號和/或中文全角/半角標點符號。
其中,所述分割符號為一個或一個以上。
其中,所述執(zhí)行消重操作進一步包括:
對重復的文本標記重復記號;和/或
對重復的文本進行刪除操作。
其中,所述序列由一個分割段或兩個以上連續(xù)的分割段組成。
其中,所述待比較文本如果只計算部分序列的哈希值,則目標序列在目標文本中的選定位置與待比較文本中部分序列的位置相對應。
其中,所述組成序列的分割段數(shù)量依據(jù)統(tǒng)計數(shù)據(jù)獲得。
其中,所述將所述比較序列的哈希值依次與待比較文本中序列的哈希值相比較進一步包括,當所述目標序列的個數(shù)大于1時,依次將每個目標序列的哈希值與待比較文本中的序列相比較。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京奇虎科技有限公司;奇智軟件(北京)有限公司,未經(jīng)北京奇虎科技有限公司;奇智軟件(北京)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210227111.7/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





