[發(fā)明專利]一種瀏覽器網(wǎng)頁信息的預獲取方法及系統(tǒng)有效

申請?zhí)枺?/td>	201410619097.4	申請日：	2014-11-05
公開（公告）號：	CN104298780B	公開（公告）日：	2018-01-12
發(fā)明（設計）人：	莫瑜;俞儼;李洪亮;劉鐵鋒	申請（專利權(quán)）人：	百納（武漢）信息技術(shù)有限公司
主分類號：	G06F17/30	分類號：	G06F17/30
代理公司：	北京輕創(chuàng)知識產(chǎn)權(quán)代理有限公司11212	代理人：	楊立
地址：	430000 湖北省武漢市東湖高***	國省代碼：	湖北;42
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	一種瀏覽器網(wǎng)頁信息獲取方法系統(tǒng)
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

技術(shù)領(lǐng)域

本發(fā)明涉及一種瀏覽器網(wǎng)頁信息的預獲取方法及系統(tǒng)。

背景技術(shù)

網(wǎng)頁加載是瀏覽器的核心和基本功能。圍繞網(wǎng)頁加載速度改進的工作有很多，比如緩存優(yōu)化，預加載，基于服務端技術(shù)，網(wǎng)絡協(xié)議改進(如SPDY)等等。

基于智能預測模型的瀏覽器網(wǎng)頁加載方法是一種能大幅提升網(wǎng)頁加載速度的方法。在這個方法中，我們命名智能預測模型PageLoadOracle主要是希望PageLoadOracle如神諭般能夠提前告訴我們對于給定網(wǎng)址來說，什么域名需要解析，什么域名需要連接，什么資源需要加載。但，現(xiàn)實中并不存在萬能的神諭，我們只能盡可能構(gòu)建一個高效的預測模型。

如何提高預測模型的預測準確率和召回率是一個關(guān)鍵問題。

準確率意味著預測模型返回需要進行的預測行為(DNS解析，TCP連接，資源下載)是正確的，沒有進行無意義的預測行為。如果出現(xiàn)錯誤預測，那么預測行為是無意義的，浪費了一定的網(wǎng)絡帶寬和計算資源，反而對網(wǎng)絡加載有負面影響。

召回率意味著預測模型能夠?qū)ΡM可能多的用戶請求網(wǎng)址提供預測行為指導。特別是對于沒有訪問過的網(wǎng)址進行指導。

發(fā)明內(nèi)容

本發(fā)明所要解決的技術(shù)問題是提供一種無論是否具有用戶個性化數(shù)據(jù)的情況下，均能夠快速冷啟動、滿足用戶的個性化的長尾需求并提高召回率的瀏覽器網(wǎng)頁信息的預獲取方法及系統(tǒng)。

本發(fā)明解決上述技術(shù)問題的技術(shù)方案如下：一種瀏覽器網(wǎng)頁信息的預獲取方法，包括以下步驟：

步驟1：對于互聯(lián)網(wǎng)中預定范圍內(nèi)的所有網(wǎng)絡站點，從每個網(wǎng)絡站點中隨機抓取預定數(shù)量的抓取網(wǎng)頁，保存與所有抓取網(wǎng)頁對應的抓取網(wǎng)頁信息；

步驟2：獲取預定時間段內(nèi)用戶訪問的歷史網(wǎng)頁，保存與所有歷史網(wǎng)頁對應的歷史網(wǎng)頁信息；

步驟3：根據(jù)所有抓取網(wǎng)頁和歷史網(wǎng)頁構(gòu)建訪問記錄，并從每個網(wǎng)絡站點中抓取的網(wǎng)頁和歷史網(wǎng)頁中分別抽取網(wǎng)址特征，并根據(jù)抓取的網(wǎng)頁和歷史網(wǎng)頁及分別與抓取的網(wǎng)頁和歷史網(wǎng)頁對應的網(wǎng)址特征的集合建立倒排索引；

步驟4：獲取用戶輸入的待訪問網(wǎng)址，判斷用戶輸入的待訪問網(wǎng)址是否在訪問記錄中，如果是，根據(jù)倒排索引獲取與待訪問網(wǎng)址相關(guān)的歷史網(wǎng)頁信息或者抓取網(wǎng)頁信息，結(jié)束處理，如果不是，抽取待訪問網(wǎng)址的網(wǎng)址特征；

步驟5：根據(jù)抽取的待訪問網(wǎng)址的網(wǎng)址特征的集合構(gòu)建候選集，所述候選集為倒排索引中所有網(wǎng)址特征的集合的并集的特征候選集；

步驟6：計算待訪問網(wǎng)址與特征候選集中每一個網(wǎng)址的相似度，根據(jù)相似度權(quán)重排序，選取相似度權(quán)重最高的網(wǎng)址特征對應的歷史訪問網(wǎng)址；

步驟7：將歷史訪問網(wǎng)址對應的網(wǎng)址信息作為預測候選集，計算預測候選集中每一個網(wǎng)址信息的概率，并選取概率最大的網(wǎng)址信息作為最終的預測候選結(jié)果返回。

本發(fā)明的有益效果是：在缺少用戶個性化數(shù)據(jù)的情況下，快速冷啟動、提高召回率；并且能綜合用戶個性化數(shù)據(jù)，滿足用戶的個性化的長尾需求，提高召回率。

在上述技術(shù)方案的基礎(chǔ)上，本發(fā)明還可以做如下改進。

進一步，所述抓取網(wǎng)頁信息包括DNS解析的域名、待創(chuàng)建連接的域名和/或待加載的資源。

進一步，所述歷史網(wǎng)頁信息包括DNS解析的域名、待創(chuàng)建連接的域名和/或待加載的資源。

進一步，所述網(wǎng)址信息包括DNS解析的域名、待創(chuàng)建連接的域名和/或待加載的資源。

進一步，所述步驟6中計算待訪問網(wǎng)址與特征候選集中每一個網(wǎng)址的相似度具體為，根據(jù)待訪問網(wǎng)址與特征候選集中任一個網(wǎng)址的特征向量計算余弦距離。

進一步，一種瀏覽器網(wǎng)頁信息的預獲取系統(tǒng)，包括抓取模塊、獲取模塊、抽取模塊、判斷模塊、構(gòu)建模塊、計算模塊和返回模塊；

所述抓取模塊，用于對于互聯(lián)網(wǎng)中預定范圍內(nèi)的所有網(wǎng)絡站點，從每個網(wǎng)絡站點中隨機抓取預定數(shù)量的抓取網(wǎng)頁，保存與所有抓取網(wǎng)頁對應的抓取網(wǎng)頁信息；

所述獲取模塊，用于獲取預定時間段內(nèi)用戶訪問的歷史網(wǎng)頁，保存與所有歷史網(wǎng)頁對應的歷史網(wǎng)頁信息；

所述抽取模塊，用于根據(jù)所有抓取網(wǎng)頁和歷史網(wǎng)頁構(gòu)建訪問記錄，并從每個網(wǎng)絡站點中抓取的網(wǎng)頁和歷史網(wǎng)頁中分別抽取網(wǎng)址特征，并根據(jù)抓取的網(wǎng)頁和歷史網(wǎng)頁及分別與抓取的網(wǎng)頁和歷史網(wǎng)頁對應的網(wǎng)址特征的集合建立倒排索引；

所述判斷模塊，用于獲取用戶輸入的待訪問網(wǎng)址，判斷用戶輸入的待訪問網(wǎng)址是否在訪問記錄中，如果是，根據(jù)倒排索引獲取與待訪問網(wǎng)址相關(guān)的歷史網(wǎng)頁信息或者抓取網(wǎng)頁信息，結(jié)束處理，如果不是，抽取待訪問網(wǎng)址的網(wǎng)址特征；

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于百納（武漢）信息技術(shù)有限公司，未經(jīng)百納（武漢）信息技術(shù)有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201410619097.4/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

上一篇：一種基于矩陣指數(shù)電磁暫態(tài)仿真的非線性建模求解方法
下一篇：一種用于提供推送信息的方法和裝置

同類專利

專利分類

G 物理

G06 計算；推算；計數(shù)
G06F 電數(shù)字數(shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計算設備或數(shù)據(jù)處理設備或數(shù)據(jù)處理方法
G06F17-10 .復雜數(shù)學運算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索；及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計算機輔助設計

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】