[發明專利]一種頁面信息提取方法和裝置有效
| 申請號: | 201210227184.6 | 申請日: | 2012-06-30 |
| 公開(公告)號: | CN103514234B | 公開(公告)日: | 2018-10-16 |
| 發明(設計)人: | 王松 | 申請(專利權)人: | 北京百度網訊科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京鴻德海業知識產權代理事務所(普通合伙) 11412 | 代理人: | 袁媛 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 頁面 信息 提取 方法 裝置 | ||
1.一種頁面信息提取方法,其特征在于,包括:
S1、獲取全網的網頁頁面;
S2、逐一將所獲取的網頁頁面解析成文檔對象模型樹,根據頁面標簽大小、位置及層疊樣式表信息,對所述網頁頁面進行視覺分塊處理,得到所述網頁頁面的視覺分塊;
S3、基于視覺分塊的語義特征對所述視覺分塊進行標注,得到標注分塊;
S4、利用預先構建的地址信息樹對所述標注分塊中的文本逐句進行分析,將含有地址信息的標注分塊識別為地址信息塊;
S5、從所述地址信息塊中提取興趣點名稱和對應的地址信息;
S6、將提取到的興趣點名稱與地址信息進行關聯,得到結構化信息;
其中,在步驟S6之前,還包括:
對同一站點內多個位置來源的興趣點名稱進行校驗,確定站點的興趣點名稱,其中,對于同一個站點,如果獲取的興趣點名稱一致,則將該興趣點名稱作為該站點的興趣點名稱,如果獲取的興趣點名稱不一致,則對多個位置來源的興趣點名稱進行校驗。
2.根據權利要求1所述的方法,其特征在于,所述步驟S2具體包括:
逐一解析所獲取的網頁頁面,建立當前網頁頁面的文檔對象模型樹;
計算所述文檔對象模型樹中每個節點的位置、大小和長寬信息,構成視覺樹;
遍歷所述視覺樹,計算每個節點的子樹信息;
根據所述節點位置、層疊樣式表信息和子樹信息對所述視覺樹進行分塊處理,得到視覺分塊;
將所述節點與視覺分塊對應,構成視覺分塊樹。
3.根據權利要求1所述的方法,其特征在于,所述步驟S3具體包括:
記錄所述視覺分塊的塊節點信息,計算所述塊節點的位置;
利用塊節點的語義特征進行標注,得到所述標注分塊,包括標注語義塊、標注功能塊和標注資源塊。
4.根據權利要求1所述的方法,其特征在于,所述地址信息樹的構建方法,包括:
逐一獲取地址實例庫中的實例地址;
對當前的實例地址進行分詞處理,得到該實例地址的詞項;
利用預設的地址標識詞典,識別實例地址中詞項的后綴成分;
利用預設的地址信息詞典和上下文關系對所述詞項進行成分分析,識別所述詞項的成分;
將識別到的成分添加到地址信息樹中對應的節點,形成地址信息樹。
5.根據權利要求1所述的方法,其特征在于,所述從地址信息塊中提取興趣點名稱,具體為:
利用地址信息塊中的文本與預設的命名實體詞典相比對,將能夠匹配的文本識別為地址信息塊中的興趣點名稱;
或者,利用地址信息塊中的文本與預設的語義規則相比對,將滿足預設語義規則的文本識別為地址信息塊中的興趣點名稱。
6.根據權利要求1所述的方法,其特征在于,所述從地址信息塊中提取對應的地址信息,具體包括:
判斷地址信息塊中的文本是否有地址提示詞;
對于帶有提示詞的文本,對提示詞后面的文本利用所述地址信息樹進行分詞,識別出至少一個地址信息;
對于無提示詞的文本,先進行分詞處理,利用預設的地址信息詞典或地址標識詞典進行地址成分的識別,將匹配程度滿足預設要求的文本識別為地址信息。
7.根據權利要求1所述的方法,其特征在于,在所述步驟S1之后和步驟S6之前,還包括:
獲取所述網頁頁面對應的站點首頁或聯系頁;
從所述站點首頁或聯系頁中提取興趣點名稱和對應的地址信息。
8.根據權利要求7所述的方法,其特征在于,所述獲取站點首頁的方法采用以下所列的一種或任意結合:
從所述網頁頁面的網址中取出域名地址,對所述域名地址進行跳轉處理,得到該網頁頁面對應的站點首頁;
通過全網網頁頁面的網址中逐一取出域名地址,進行去重處理后添加到域名地址集合中,對所述域名地址集合中的所有域名地址進行跳轉處理,得到相對應的站點首頁;
或者,利用站點的首頁樣本集合,統計分析其鏈接錨文本及網址樣式特征構造首頁分類器,利用所述首頁分類器對所述網頁頁面進行分析,得到所有的站點首頁。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網訊科技有限公司,未經北京百度網訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210227184.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:多目標比例車體振動特性綜合試驗臺
- 下一篇:一種內燃機瞬態工況性能評價方法
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





