[發明專利]用于確定目標對象所對應的站點信息模板的方法和設備有效
| 申請號: | 201310162881.2 | 申請日: | 2013-05-06 |
| 公開(公告)號: | CN103279495A | 公開(公告)日: | 2013-09-04 |
| 發明(設計)人: | 陳洪亮;呼大為 | 申請(專利權)人: | 百度在線網絡技術(北京)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 北京漢昊知識產權代理事務所(普通合伙) 11370 | 代理人: | 羅朋;周建華 |
| 地址: | 100085 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 確定 目標 對象 對應 站點 信息 模板 方法 設備 | ||
技術領域
本發明涉及互聯網技術領域,尤其涉及一種用于確定目標對象所對應的站點信息模板的技術。
背景技術
現有的網頁信息提取方法,主要是通過對網頁的DOM(文檔對象化模型,Document?Object?Model)樹進行遍歷,抽取其中的所有文本節點信息以組成與該網頁對應的正文信息。
利用這種方法所抽取的網頁信息,沒有真正的對網頁的結果進行分析,抽取出的信息多且雜,不能更好的滿足用戶的需求;同時,由于當前網頁中的信息豐富多樣,站長使用的頁面模版也是多種多樣,從而無法利用同一個網頁信息提取模板對不同網站上的信息進行提取。
發明內容
本發明的目的是提供一種用于確定目標對象所對應的站點信息模板的方法和設備。
根據本發明的一個方面,提供了一種用于確定目標對象所對應的站點信息模板的方法,其中,該方法包括以下步驟:
a根據目標對象在參考站點所對應的參考站點模板,在所述參考站點中獲取對應的參考文本;
b根據所述參考文本進行匹配查詢,以確定與所述參考文本相匹配的一個或多個站點訓練文本;
c根據所述一個或多個站點訓練文本中至少一個站點訓練文本,以及所述至少一個站點訓練文本所對應的目標站點的站點相關信息,確定所述目標對象在所述目標站點中所對應的站點信息模板。
根據本發明的另一方面,還提供了一種用于確定目標對象所對應的站點信息模板的處理設備,其中,該設備包括:
參考文本獲取裝置,用于根據目標對象在參考站點所對應的參考站點模板,在所述參考站點中獲取對應的參考文本;
訓練文本確定裝置,用于根據所述參考文本進行匹配查詢,以確定與所述參考文本相匹配的一個或多個站點訓練文本;
模板確定裝置,用于根據所述一個或多個站點訓練文本中至少一個站點訓練文本,以及所述至少一個站點訓練文本所對應的目標站點的站點相關信息,確定所述目標對象在所述目標站點中所對應的站點信息模板。
根據本發明的再一方面,還提供了一種搜索引擎,包括如上述所述的用于確定目標對象所對應的站點信息模板的處理設備。
根據本發明的又一方面,還提供了一種搜索引擎插件,包括如上述所述的用于確定目標對象所對應的站點信息模板的處理設備。
根據本發明的另一方面,還提供了一種瀏覽器,包括如上述所述的用于確定目標對象所對應的站點信息模板的處理設備。
根據本發明的另一方面,還提供了一種瀏覽器插件,包括如上述所述的用于確定目標對象所對應的站點信息模板的處理設備。
與現有技術相比,本發明通過根據目標對象在參考站點所對應的參考站點模板,在所述參考站點中獲取對應的參考文本,根據所述參考文本進行匹配查詢,以確定與所述參考文本相匹配的一個或多個站點訓練文本,并根據所述一個或多個站點訓練文本中至少一個站點訓練文本,以及所述至少一個站點訓練文本所對應的目標站點的站點相關信息,確定所述目標對象在所述目標站點中所對應的站點信息模板,從而能夠根據目標對象進行站點信息模板的確定,提高了信息獲取的準確性,并且擴大了信息獲取的范圍,提高了信息的獲取效率。
而且,本發明還可以根據用戶在所述參考站點的操作信息,確定與所述參考站點相對應的目標對象,并根據所述目標對象,確定所述目標對象在參考站點所對應的參考站點模板;從而提高了參考站點模板確定的實效性與靈活性,使得參考站點模板與用戶的需求相對應,進一步提高了信息獲取的準確性。
而且,本發明還可以獲取用戶在所述參考站點的訪問操作信息,根據用戶在所述參考站點的訪問操作信息,確定與所述參考站點相對應的目標對象;并且,根據所述站點信息模板,在所述目標站點中確定與所述站點信息模板相匹配的一個或多個目標文本信息,將與所述一個或多個目標文本信息相對應的信息提供給所述用戶;進一步地,根據所述一個或多個目標文本信息中至少一個,確定對應的優選目標文本信息,將所述優選目標文本信息提供給所述用戶;從而提高了參考站點模板確定的實效性與靈活性,使得參考站點模板與用戶的需求相對應,進一步提高了信息獲取的準確性,同時及時地將目標文本信息提供給所述用戶,提高了信息的獲取效率,改善了用戶體驗。
而且,本發明還可以對包含結構化數據需求的目標對象生成對應的站點信息模板;進一步地,還可以確定所述目標對象是否包含結構化數據需求;從而實現了對數據結構化的處理,使得信息更便于被閱讀與分析,提高了信息獲取的準確性,并且擴大了信息獲取的范圍,提高了信息的獲取效率。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于百度在線網絡技術(北京)有限公司,未經百度在線網絡技術(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310162881.2/2.html,轉載請聲明來源鉆瓜專利網。





