[發明專利]網頁消重方法、裝置及存儲介質有效
| 申請號: | 201610391118.0 | 申請日: | 2016-06-03 |
| 公開(公告)號: | CN107463571B | 公開(公告)日: | 2020-03-31 |
| 發明(設計)人: | 楊俊 | 申請(專利權)人: | 北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司 |
| 主分類號: | G06F16/9535 | 分類號: | G06F16/9535;G06F16/958 |
| 代理公司: | 中科專利商標代理有限責任公司 11021 | 代理人: | 柯瑞京 |
| 地址: | 100195 北京市海淀區杏石口路6*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 網頁 方法 裝置 存儲 介質 | ||
一種網頁消重方法方法,包括:網頁正文抽取步驟(S1),對作為消重對象的網頁的html源代碼進行分析,提取出所述網頁的正文內容;正文特征提取步驟(S2),對提取出的所述正文內容按段落進行分段,并抽取段落中的能唯一代表該段落特征的段落中心句作為分段特征,并將所有的分段特征作為所述正文內容的正文特征;以及消重步驟(S3),將所述正文特征與既存網頁中的既存正文特征進行相似度計算,以確定是否為重復網頁并進行消重。
技術領域
本發明涉及一種網頁消重方法,特別涉及基于段落的網頁消重方法。
背景技術
隨著Internet的發展及其廣泛應用,網絡上的信息呈爆炸式增長,互聯網已經成為了人們獲取信息的重要來源。為了幫助人們快速找到所需要的信息,搜索引擎技術就應運而生了。搜索引擎方便了人們查找自己所需要的信息,節省了處理時間,已經成為了人們使用頻繁的網上服務。
但是據互聯網信息中心統計報告顯示,重復結果太多是用戶在使用搜索引擎時遇到的主要問題。據統計,Internet上大約有30%左右的重復網頁,大部分是由于轉載造成的。網頁重復問題對搜索引擎帶來了一定的影響,重復網頁不僅浪費了存儲空間,也增加了搜索引擎的處理時間。同時搜索引擎的檢索結果包含了很多內容重復的網頁,降低了檢索質量,所以網頁消重已經成為搜索引擎中一項必不可少的工作。
當前,高質量的網頁消重都是將網頁正文文本作為消重對象的,是基于內容的文本復制檢測。兩個網頁之間存在重復,表現為網頁正文文本間內容完全相同或部分相同。網頁消重的核心任務是判斷網頁正文文本之間的相似度,所謂相似度是指網頁正文文本內容相同和相關的比例,文本間相似度越大,文本復制的可能性越大,相似度越小,文本復制的可能性越小。網頁消重技術一般不是將整個網頁作為處理對象的,而是從網頁中抽取足以代表該網頁的特征,然后對這些特征進行相似度的計算,關鍵技術就是網頁正文內容的特征提取算法及特征相似度比較算法。
現有技術方案中,主要有基于特征句和基于標點的消重算法。
在基于特征句的消重算法中,首先,提取網頁正文,對網頁正文進行分詞。其次,為了抽取出每個網頁文本的特征詞,而要考慮每個詞語的詞頻信息(Frequency)、位置信息(Location)、是否在標題中出現(Title)以及其他一些特殊的標識性信息。然后,綜合考慮上述四個選項,分別賦予不同的比例,計算得到特征詞的權值,并從中找出權值最大的特征詞。接著,在網頁正文中尋找該特征詞第一次出現的位置,以其第一次出現所在的句子作為該網頁的特征句。然后,將兩篇網頁的比較轉換為兩個句子的最長公共子序列的比較。當匹配度達到設定的閾值時,則認為該網頁與重復網頁數據庫中的網頁重復,將該網頁與原網頁合并,如果整個網頁數據庫中都沒有與之重復的網頁,則將該網頁加入到網頁數據庫中。
另外,網頁正文部分一般都會包含標點符號。基于標點的網頁消重算法就是利用標點符號出現在網頁文本中的特點,在文章中特定的位置提取出一些字符,將這些字符組成代表該字符串的字符串來唯一的標識網頁。然后比較字符串之間的相似度來判斷是否為重復網頁。
然而,現有技術中均存在一定的技術問題。
例如,基于特征詞的網頁消重算法,特征的選取比較復雜,需要考慮較多的因素,同時特征詞的比較算法時間復雜度較高,當網頁規模達到幾十萬的時候,由于需要與網頁集合中的特征句兩兩比較會導致時間復雜度急劇增加。
例如,基于標點的網頁消重算法只適用于網頁正文含有標點符號,且內容不會改變的情況,如果網頁正文內容發生變化(語句前后順序變化等),會導致抽取的標點特征字符串發生變化導致判斷錯誤。同時也存在比較特征字符串時間復雜度高的問題。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司,未經北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610391118.0/2.html,轉載請聲明來源鉆瓜專利網。





