[發明專利]一種瀏覽器網頁信息的預獲取方法及系統有效
| 申請號: | 201410619097.4 | 申請日: | 2014-11-05 |
| 公開(公告)號: | CN104298780B | 公開(公告)日: | 2018-01-12 |
| 發明(設計)人: | 莫瑜;俞儼;李洪亮;劉鐵鋒 | 申請(專利權)人: | 百納(武漢)信息技術有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京輕創知識產權代理有限公司11212 | 代理人: | 楊立 |
| 地址: | 430000 湖北省武漢市東湖高*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 瀏覽器 網頁 信息 獲取 方法 系統 | ||
1.一種瀏覽器網頁信息的預獲取方法,其特征在于,包括以下步驟:
步驟1:對于互聯網中預定范圍內的所有網絡站點,從每個網絡站點中隨機抓取預定數量的抓取網頁,保存與所有抓取網頁對應的抓取網頁信息;
步驟2:獲取預定時間段內用戶訪問的歷史網頁,保存與所有歷史網頁對應的歷史網頁信息;
步驟3:根據所有抓取網頁和歷史網頁構建訪問記錄,并從每個網絡站點中抓取的網頁和歷史網頁中分別抽取網址特征,并根據抓取的網頁和歷史網頁及分別與抓取的網頁和歷史網頁對應的網址特征的集合建立倒排索引;
步驟4:獲取用戶輸入的待訪問網址,判斷用戶輸入的待訪問網址是否在訪問記錄中,如果是,根據倒排索引獲取與待訪問網址相關的歷史網頁信息或者抓取網頁信息,結束處理,如果不是,抽取待訪問網址的網址特征;
步驟5:根據抽取的待訪問網址的網址特征的集合構建特征候選集,所述特征候選集為待訪問網址的網址特征所對應的倒排索引中包含的網址的并集;
步驟6:計算待訪問網址與特征候選集中每一個網址的相似度,根據相似度權重排序,選取相似度權重最高的網址特征對應的歷史訪問網址;
步驟7:將歷史訪問網址對應的網址信息作為預測候選集,計算預測候選集中每一個網址信息的概率,并選取概率最大的網址信息作為最終的預測候選結果返回。
2.根據權利要求1所述的瀏覽器網頁信息的預獲取方法,其特征在于:所述抓取網頁信息包括DNS解析的域名、待創建連接的域名和/或待加載的資源。
3.根據權利要求1所述的瀏覽器網頁信息的預獲取方法,其特征在于:所述歷史網頁信息包括DNS解析的域名、待創建連接的域名和/或待加載的資源。
4.根據權利要求1所述的瀏覽器網頁信息的預獲取方法,其特征在于:所述網址信息包括DNS解析的域名、待創建連接的域名和/或待加載的資源。
5.根據權利要求1所述的瀏覽器網頁信息的預獲取方法,其特征在于:所述步驟6中計算待訪問網址與特征候選集中每一個網址的相似度具體為,根據待訪問網址與特征候選集中任一個網址的特征向量計算余弦距離。
6.一種瀏覽器網頁信息的預獲取系統,其特征在于:包括抓取模塊(1)、獲取模塊(2)、抽取模塊(3)、判斷模塊(4)、構建模塊(5)、計算模塊(6)和返回模塊(7);
所述抓取模塊(1),用于對于互聯網中預定范圍內的所有網絡站點,從每個網絡站點中隨機抓取預定數量的抓取網頁,保存與所有抓取網頁對應的抓取網頁信息;
所述獲取模塊(2),用于獲取預定時間段內用戶訪問的歷史網頁,保存與所有歷史網頁對應的歷史網頁信息;
所述抽取模塊(3),用于根據所有抓取網頁和歷史網頁構建訪問記錄,并從每個網絡站點中抓取的網頁和歷史網頁中分別抽取網址特征,并根據抓取的網頁和歷史網頁及分別與抓取的網頁和歷史網頁對應的網址特征的集合建立倒排索引;
所述判斷模塊(4),用于獲取用戶輸入的待訪問網址,判斷用戶輸入的待訪問網址是否在訪問記錄中,如果是,根據倒排索引獲取與待訪問網址相關的歷史網頁信息或者抓取網頁信息,結束處理,如果不是,抽取待訪問網址的網址特征;
所述構建模塊(5),用于根據抽取的待訪問網址的網址特征的集合構建特征候選集,所述特征候選集為待訪問網址的網址特征所對應的倒排索引中包含的網址的并集;
所述計算模塊(6),用于計算待訪問網址與特征候選集中每一個網址的相似度,根據相似度權重排序,選取相似度權重最高的網址特征對應的歷史訪問網址;
所述返回模塊(7),用于將歷史訪問網址對應的網址信息作為預測候選集,計算預測候選集中每一個網址信息的概率,并選取概率最大的網址信息作為最終的預測候選結果返回。
7.根據權利要求6所述的瀏覽器網頁信息的預獲取系統,其特征在于:所述抓取網頁信息包括DNS解析的域名、待創建連接的域名和/或待加載的資源。
8.根據權利要求6所述的瀏覽器網頁信息的預獲取系統,其特征在于:所述歷史網頁信息包括DNS解析的域名、待創建連接的域名和/或待加載的資源。
9.根據權利要求6所述的瀏覽器網頁信息的預獲取系統,其特征在于:所述網址信息包括DNS解析的域名、待創建連接的域名和/或待加載的資源。
10.根據權利要求6所述的瀏覽器網頁信息的預獲取系統,其特征在于:所述計算模塊(6)中計算待訪問網址與特征候選集中每一個網址的相似度具體為,根據待訪問網址與特征候選集中任一個網址的特征向量計算余弦距離。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于百納(武漢)信息技術有限公司,未經百納(武漢)信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410619097.4/1.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





