[發(fā)明專利]一種瀏覽器網(wǎng)頁信息的預獲取方法及系統(tǒng)有效
| 申請?zhí)枺?/td> | 201410619097.4 | 申請日: | 2014-11-05 |
| 公開(公告)號: | CN104298780B | 公開(公告)日: | 2018-01-12 |
| 發(fā)明(設計)人: | 莫瑜;俞儼;李洪亮;劉鐵鋒 | 申請(專利權(quán))人: | 百納(武漢)信息技術(shù)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京輕創(chuàng)知識產(chǎn)權(quán)代理有限公司11212 | 代理人: | 楊立 |
| 地址: | 430000 湖北省武漢市東湖高*** | 國省代碼: | 湖北;42 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 瀏覽器 網(wǎng)頁 信息 獲取 方法 系統(tǒng) | ||
技術(shù)領(lǐng)域
本發(fā)明涉及一種瀏覽器網(wǎng)頁信息的預獲取方法及系統(tǒng)。
背景技術(shù)
網(wǎng)頁加載是瀏覽器的核心和基本功能。圍繞網(wǎng)頁加載速度改進的工作有很多,比如緩存優(yōu)化,預加載,基于服務端技術(shù),網(wǎng)絡協(xié)議改進(如SPDY)等等。
基于智能預測模型的瀏覽器網(wǎng)頁加載方法是一種能大幅提升網(wǎng)頁加載速度的方法。在這個方法中,我們命名智能預測模型PageLoadOracle主要是希望PageLoadOracle如神諭般能夠提前告訴我們對于給定網(wǎng)址來說,什么域名需要解析,什么域名需要連接,什么資源需要加載。但,現(xiàn)實中并不存在萬能的神諭,我們只能盡可能構(gòu)建一個高效的預測模型。
如何提高預測模型的預測準確率和召回率是一個關(guān)鍵問題。
準確率意味著預測模型返回需要進行的預測行為(DNS解析,TCP連接,資源下載)是正確的,沒有進行無意義的預測行為。如果出現(xiàn)錯誤預測,那么預測行為是無意義的,浪費了一定的網(wǎng)絡帶寬和計算資源,反而對網(wǎng)絡加載有負面影響。
召回率意味著預測模型能夠?qū)ΡM可能多的用戶請求網(wǎng)址提供預測行為指導。特別是對于沒有訪問過的網(wǎng)址進行指導。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題是提供一種無論是否具有用戶個性化數(shù)據(jù)的情況下,均能夠快速冷啟動、滿足用戶的個性化的長尾需求并提高召回率的瀏覽器網(wǎng)頁信息的預獲取方法及系統(tǒng)。
本發(fā)明解決上述技術(shù)問題的技術(shù)方案如下:一種瀏覽器網(wǎng)頁信息的預獲取方法,包括以下步驟:
步驟1:對于互聯(lián)網(wǎng)中預定范圍內(nèi)的所有網(wǎng)絡站點,從每個網(wǎng)絡站點中隨機抓取預定數(shù)量的抓取網(wǎng)頁,保存與所有抓取網(wǎng)頁對應的抓取網(wǎng)頁信息;
步驟2:獲取預定時間段內(nèi)用戶訪問的歷史網(wǎng)頁,保存與所有歷史網(wǎng)頁對應的歷史網(wǎng)頁信息;
步驟3:根據(jù)所有抓取網(wǎng)頁和歷史網(wǎng)頁構(gòu)建訪問記錄,并從每個網(wǎng)絡站點中抓取的網(wǎng)頁和歷史網(wǎng)頁中分別抽取網(wǎng)址特征,并根據(jù)抓取的網(wǎng)頁和歷史網(wǎng)頁及分別與抓取的網(wǎng)頁和歷史網(wǎng)頁對應的網(wǎng)址特征的集合建立倒排索引;
步驟4:獲取用戶輸入的待訪問網(wǎng)址,判斷用戶輸入的待訪問網(wǎng)址是否在訪問記錄中,如果是,根據(jù)倒排索引獲取與待訪問網(wǎng)址相關(guān)的歷史網(wǎng)頁信息或者抓取網(wǎng)頁信息,結(jié)束處理,如果不是,抽取待訪問網(wǎng)址的網(wǎng)址特征;
步驟5:根據(jù)抽取的待訪問網(wǎng)址的網(wǎng)址特征的集合構(gòu)建候選集,所述候選集為倒排索引中所有網(wǎng)址特征的集合的并集的特征候選集;
步驟6:計算待訪問網(wǎng)址與特征候選集中每一個網(wǎng)址的相似度,根據(jù)相似度權(quán)重排序,選取相似度權(quán)重最高的網(wǎng)址特征對應的歷史訪問網(wǎng)址;
步驟7:將歷史訪問網(wǎng)址對應的網(wǎng)址信息作為預測候選集,計算預測候選集中每一個網(wǎng)址信息的概率,并選取概率最大的網(wǎng)址信息作為最終的預測候選結(jié)果返回。
本發(fā)明的有益效果是:在缺少用戶個性化數(shù)據(jù)的情況下,快速冷啟動、提高召回率;并且能綜合用戶個性化數(shù)據(jù),滿足用戶的個性化的長尾需求,提高召回率。
在上述技術(shù)方案的基礎(chǔ)上,本發(fā)明還可以做如下改進。
進一步,所述抓取網(wǎng)頁信息包括DNS解析的域名、待創(chuàng)建連接的域名和/或待加載的資源。
進一步,所述歷史網(wǎng)頁信息包括DNS解析的域名、待創(chuàng)建連接的域名和/或待加載的資源。
進一步,所述網(wǎng)址信息包括DNS解析的域名、待創(chuàng)建連接的域名和/或待加載的資源。
進一步,所述步驟6中計算待訪問網(wǎng)址與特征候選集中每一個網(wǎng)址的相似度具體為,根據(jù)待訪問網(wǎng)址與特征候選集中任一個網(wǎng)址的特征向量計算余弦距離。
進一步,一種瀏覽器網(wǎng)頁信息的預獲取系統(tǒng),包括抓取模塊、獲取模塊、抽取模塊、判斷模塊、構(gòu)建模塊、計算模塊和返回模塊;
所述抓取模塊,用于對于互聯(lián)網(wǎng)中預定范圍內(nèi)的所有網(wǎng)絡站點,從每個網(wǎng)絡站點中隨機抓取預定數(shù)量的抓取網(wǎng)頁,保存與所有抓取網(wǎng)頁對應的抓取網(wǎng)頁信息;
所述獲取模塊,用于獲取預定時間段內(nèi)用戶訪問的歷史網(wǎng)頁,保存與所有歷史網(wǎng)頁對應的歷史網(wǎng)頁信息;
所述抽取模塊,用于根據(jù)所有抓取網(wǎng)頁和歷史網(wǎng)頁構(gòu)建訪問記錄,并從每個網(wǎng)絡站點中抓取的網(wǎng)頁和歷史網(wǎng)頁中分別抽取網(wǎng)址特征,并根據(jù)抓取的網(wǎng)頁和歷史網(wǎng)頁及分別與抓取的網(wǎng)頁和歷史網(wǎng)頁對應的網(wǎng)址特征的集合建立倒排索引;
所述判斷模塊,用于獲取用戶輸入的待訪問網(wǎng)址,判斷用戶輸入的待訪問網(wǎng)址是否在訪問記錄中,如果是,根據(jù)倒排索引獲取與待訪問網(wǎng)址相關(guān)的歷史網(wǎng)頁信息或者抓取網(wǎng)頁信息,結(jié)束處理,如果不是,抽取待訪問網(wǎng)址的網(wǎng)址特征;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于百納(武漢)信息技術(shù)有限公司,未經(jīng)百納(武漢)信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410619097.4/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 信息記錄介質(zhì)、信息記錄方法、信息記錄設備、信息再現(xiàn)方法和信息再現(xiàn)設備
- 信息記錄裝置、信息記錄方法、信息記錄介質(zhì)、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質(zhì)
- 信息存儲介質(zhì)、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質(zhì)、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質(zhì)、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置





