[發明專利]web頁面內的公共塊元素的結構化識別方法和裝置有效
| 申請號: | 201310234124.1 | 申請日: | 2013-06-13 |
| 公開(公告)號: | CN103279563B | 公開(公告)日: | 2017-02-08 |
| 發明(設計)人: | 張弦;張建榮;李偉剛;馬鎮新 | 申請(專利權)人: | 百度在線網絡技術(北京)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京清亦華知識產權代理事務所(普通合伙)11201 | 代理人: | 宋合成 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | web 頁面 公共 元素 結構 識別 方法 裝置 | ||
1.一種web頁面內的公共塊元素的結構化識別方法,其特征在于,包括以下步驟:?
檢測所述web頁面內的元素;?
將所述元素與預先定義的公共塊元素進行匹配識別;?
對匹配成功的元素進行結構化抽取。?
2.根據權利要求1所述的方法,其特征在于,所述預先定義的公共塊元素包括欄目塊、導航塊或翻頁塊。?
3.根據權利要求2所述的方法,其特征在于,將所述元素與預先定義的所述欄目塊進行匹配識別的步驟包括:?
根據所述欄目塊的標題特征識別出標題節點;?
識別所述欄目塊中的重復父節點;?
判斷所述重復父節點是否存在一個相鄰節點是標題節點;?
如果是,則將所述重復父節點和所述相鄰節點識別為包含標題節點的內容塊組。?
4.根據權利要求3所述的方法,其特征在于,進一步包括步驟:?
如果否,則將所述重復父節點識別為缺乏標題節點的內容塊。?
5.根據權利要求2所述的方法,其特征在于,將所述元素與預先定義的所述翻頁塊進行匹配識別的步驟包括:?
根據所述翻頁塊的錨文本和鏈接特征的關鍵特征字識別出多個翻頁節點;?
判斷所述多個翻頁節點是否存在最小公共父節點;以及?
如果存在,則將所述多個翻頁節點識別為所述翻頁塊的翻頁塊節點。?
6.根據權利要求5所述的方法,其特征在于,還包括:?
判斷所述翻頁塊的所述多個翻頁塊節點的序列是否完整;?
如果否,則抽取所述多個翻頁塊節點的頁碼文本信息和翻頁鏈接;?
獲取所述多個翻頁塊節點的共同鏈接特征;?
判斷所述多個翻頁塊節點中除所述共同鏈接特征之外的特征是否為數字且所述多個數字組成等差數列;以及?
如果是,則根據所述多個數字獲取缺失頁碼對應的所述翻頁鏈接。?
7.根據權利要求2所述的方法,其特征在于,將所述元素與預先定義的所述導航進行匹配識別的步驟包括:?
判斷背景色最深的導航塊和背景色次深的導航塊的差值是否大于預定閾值;?
如果背景色最深的導航塊和背景色次深的導航塊的差值大于預定閾值,則將所述背景色最深的導航塊識別為主導航塊。?
8.根據權利要求7所述的方法,其特征在于,進一步包括步驟:?
如果背景色最深的導航塊和背景色次深的導航塊的差值不大于預定閾值,判斷是否存在平均字體最大的導航塊;?
如果存在平均字體最大的導航塊,則將所述平均字體最大的導航塊識別為主導航塊。?
9.根據權利要求8所述的方法,其特征在于,進一步包括步驟:?
如果不存在平均字體最大的導航塊,則判斷是否存在加粗比例最大的導航塊;?
如果存在加粗比例最大的導航塊,則將所述加粗比例最大的導航塊識別為主導航塊。?
10.根據權利要求9所述的方法,其特征在于,進一步包括步驟:?
如果不存在加粗比例最大的導航塊,則將最靠近頁面主體的導航塊識別為主導航塊。?
11.一種web頁面內的公共塊元素的結構化識別裝置,其特征在于,包括:?
檢測模塊,所述檢測模塊用于檢測所述web頁面內的元素;?
匹配識別模塊,所述匹配模塊用于將所述元素與預先定義的公共塊元素進行匹配識別;?
抽取模塊,所述識別模塊用于對匹配成功的元素進行結構化抽取。?
12.根據權利要求11所述的裝置,其特征在于,所述預先定義的公共塊元素包括欄目塊、導航塊或翻頁塊。?
13.根據權利要求12所述的裝置,其特征在于,所述匹配識別模塊用于:?
根據所述欄目塊的標題特征識別出標題節點;?
識別所述欄目塊中的重復父節點;?
判斷所述重復父節點是否存在一個相鄰節點是標題節點;?
如果是,則將所述重復父節點和所述相鄰節點識別為包含標題節點的內容塊組。?
14.根據權利要求13所述的裝置,其特征在于,所述匹配識別模塊進一步用于:?
如果否,則將所述重復父節點識別為缺乏標題節點的內容塊。?
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于百度在線網絡技術(北京)有限公司,未經百度在線網絡技術(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310234124.1/1.html,轉載請聲明來源鉆瓜專利網。





