[發(fā)明專利]一種處理網(wǎng)站地圖的方法、裝置及設(shè)備在審
| 申請?zhí)枺?/td> | 201510676894.0 | 申請日: | 2015-10-16 |
| 公開(公告)號: | CN105260469A | 公開(公告)日: | 2016-01-20 |
| 發(fā)明(設(shè)計)人: | 梁捷;梁卡喆 | 申請(專利權(quán))人: | 廣州神馬移動信息科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京展翼知識產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙) 11452 | 代理人: | 屠長存 |
| 地址: | 510627 廣東省廣州市天河區(qū)黃埔大*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 處理 網(wǎng)站 地圖 方法 裝置 設(shè)備 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及移動互聯(lián)網(wǎng)技術(shù)領(lǐng)域,具體涉及一種處理網(wǎng)站地圖的方法、裝置及設(shè)備。
背景技術(shù)
目前,搜索引擎通常會通過網(wǎng)站(也稱為站點)內(nèi)部和其他網(wǎng)站上的鏈接查找網(wǎng)頁,網(wǎng)站地圖sitemap可方便網(wǎng)站通知搜索引擎在網(wǎng)站上有哪些可供抓取的網(wǎng)頁。最簡單的sitemap形式,就是XML(ExtensibleMarkupLanguage,可擴展標(biāo)記語言)文件,在其中列出網(wǎng)站中的網(wǎng)址以及關(guān)于每個網(wǎng)址的其他元數(shù)據(jù)(上次更新的時間、更改的頻率以及相對于網(wǎng)站上其他網(wǎng)址的重要程度等),以便搜索引擎可以更加智能地抓取網(wǎng)站內(nèi)容。簡單來講,sitemap可以理解為網(wǎng)站上鏈接的列表。生成sitemap并提交給搜索引擎,可以使網(wǎng)站的內(nèi)容容易被收錄,包括那些隱藏比較深的頁面,這是一種網(wǎng)站與搜索引擎對話的好方式。
但是,目前很多網(wǎng)站提供的sitemap里面包含的網(wǎng)站鏈接的質(zhì)量有可能出現(xiàn)不少問題,例如鏈接錯誤,鏈接的內(nèi)容劣質(zhì)或未及時更新等,這些情況都會浪費搜索引擎爬取的資源,這樣就導(dǎo)致了雖然網(wǎng)站提供了sitemap,但搜索引擎根據(jù)爬取的結(jié)果,并不一定會收錄sitemap的網(wǎng)站鏈接,同時還可能觸發(fā)搜索引擎的降權(quán)規(guī)則,減少對該網(wǎng)站收錄的鏈接數(shù)量和降低該網(wǎng)站的搜索排序等。
因此,現(xiàn)有的網(wǎng)站地圖的處理方法,不能滿足網(wǎng)站和搜索引擎各自的需要。
發(fā)明內(nèi)容
為解決上述技術(shù)問題,本發(fā)明提供一種處理網(wǎng)站地圖的方法、裝置及設(shè)備,能滿足網(wǎng)站和搜索引擎各自的需要。
根據(jù)本發(fā)明的一個方面,提供一種處理網(wǎng)站地圖的方法,包括:
根據(jù)預(yù)設(shè)信息獲取網(wǎng)站的網(wǎng)站地圖;
獲取網(wǎng)站地圖中頁面的鏈接并進(jìn)行訪問;
根據(jù)訪問結(jié)果刪除網(wǎng)站地圖中影響搜索收錄的鏈接;
生成新網(wǎng)站地圖。
優(yōu)選地,所述獲取網(wǎng)站地圖中頁面的鏈接并進(jìn)行訪問之后還包括:
對訪問的頁面提取關(guān)鍵詞和正文特征值;
根據(jù)提取的關(guān)鍵詞和正文特征值與預(yù)存的關(guān)鍵詞和正文特征值的比較結(jié)果,刪除網(wǎng)站地圖中影響搜索收錄的鏈接。
優(yōu)選地,所述根據(jù)訪問結(jié)果刪除網(wǎng)站地圖中影響搜索收錄的鏈接包括:
在訪問結(jié)果是出現(xiàn)無法訪問的HTTP404錯誤時,刪除對應(yīng)的鏈接;或,
在訪問結(jié)果是頁面響應(yīng)時間大于或等于設(shè)定閾值時,刪除對應(yīng)的鏈接;或,
在訪問結(jié)果是頁面的標(biāo)題、關(guān)鍵詞和描述不完整時,刪除對應(yīng)的鏈接;或,
在訪問結(jié)果是頁面的正文內(nèi)容與頁面的標(biāo)題、關(guān)鍵詞和描述不匹配時,刪除對應(yīng)的鏈接。
優(yōu)選地,所述根據(jù)提取的關(guān)鍵詞和正文特征值與預(yù)存的關(guān)鍵詞和正文特征值的比較結(jié)果,刪除網(wǎng)站地圖中影響搜索收錄的鏈接包括:
根據(jù)提取的關(guān)鍵詞和正文特征值與預(yù)存的關(guān)鍵詞和正文特征值的比較結(jié)果是一致,判斷為內(nèi)容重復(fù)提交,刪除對應(yīng)的鏈接。
優(yōu)選地,所述方法還包括:
將生成的新網(wǎng)站地圖提供給搜索引擎訪問。
優(yōu)選地,所述方法還包括:
記錄所述搜索引擎訪問新網(wǎng)站地圖后進(jìn)行搜索并收錄的收錄數(shù)據(jù)。
根據(jù)本發(fā)明的另一方面,提供一種處理網(wǎng)站地圖的裝置,包括:
獲取模塊,用于根據(jù)預(yù)設(shè)信息獲取網(wǎng)站的網(wǎng)站地圖;
訪問模塊,用于根據(jù)所述獲取模塊獲取的網(wǎng)站地圖,獲取網(wǎng)站地圖中頁面的鏈接并進(jìn)行訪問;
第一處理模塊,用于根據(jù)所述訪問模塊的訪問結(jié)果刪除網(wǎng)站地圖中影響搜索收錄的鏈接;
生成模塊,用于在所述第一處理模塊進(jìn)行處理后生成新網(wǎng)站地圖。
優(yōu)選地,所述裝置還包括:
第二處理模塊,用于對訪問的頁面提取關(guān)鍵詞和正文特征值,根據(jù)提取的關(guān)鍵詞和正文特征值與預(yù)存的關(guān)鍵詞和正文特征值的比較結(jié)果,刪除網(wǎng)站地圖中影響搜索收錄的鏈接;
所述生成模塊在所述第一處理模塊和所述第二處理模塊進(jìn)行處理后,生成新網(wǎng)站地圖。
優(yōu)選地,所述裝置還包括:
輸出模塊,用于將所述生成模塊生成的新網(wǎng)站地圖提供給搜索引擎訪問。
優(yōu)選地,所述裝置還包括:
監(jiān)控模塊,用于記錄所述搜索引擎訪問新網(wǎng)站地圖后進(jìn)行搜索并收錄的收錄數(shù)據(jù)。
優(yōu)選地,所述第一處理模塊包括:
第一刪除單元,用于在訪問結(jié)果是出現(xiàn)無法訪問的HTTP404錯誤時,刪除對應(yīng)的鏈接;或,
第二刪除單元,用于在訪問結(jié)果是頁面響應(yīng)時間大于或等于設(shè)定閾值時,刪除對應(yīng)的鏈接;或,
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于廣州神馬移動信息科技有限公司,未經(jīng)廣州神馬移動信息科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510676894.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種基于語義的油井功圖計量方法
- 下一篇:圖片處理方法和裝置
- 與HTTP網(wǎng)站關(guān)聯(lián)的WAP網(wǎng)站
- 基于網(wǎng)站指紋推送白名單的方法及系統(tǒng)
- 網(wǎng)站漏洞檢測方法和系統(tǒng)
- 一種網(wǎng)站建立方法、裝置及計算設(shè)備
- 一種網(wǎng)站識別方法及裝置
- 網(wǎng)站風(fēng)險評估方法及裝置
- 網(wǎng)站版權(quán)時間的管理方法、裝置、存儲介質(zhì)及設(shè)備
- 一種網(wǎng)站開發(fā)系統(tǒng)及方法
- 一種基于網(wǎng)站地圖的指紋識別方法
- 網(wǎng)站應(yīng)用框架指紋識別的方法、設(shè)備、裝置及介質(zhì)





