[發明專利]一種基于HTML標簽識別異步加載內容的搜索引擎優化方法在審

申請號：	201810959330.1	申請日：	2018-08-22
公開（公告）號：	CN108984801A	公開（公告）日：	2018-12-11
發明（設計）人：	邱明勝	申請（專利權）人：	百卓網絡科技有限公司
主分類號：	G06F17/30	分類號：	G06F17/30
代理公司：	南京瑞弘專利商標事務所(普通合伙) 32249	代理人：	陳建和
地址：	210032 江蘇省南京市***	國省代碼：	江蘇;32
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	標簽匹配搜索引擎優化抓取爬蟲異步加載正則表達式編碼壓縮讀取內容發送請求鏈接屬性網絡爬蟲網頁爬蟲文本內容文本信息多線程可識別搜索器網頁庫遍歷放入內存頁面存儲網頁返回
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種基于HTML標簽識別異步加載內容的搜索引擎優化方法，其特征是，步驟如下：

步驟1：在網頁上定義一種可識別的HTML標簽，當網頁爬蟲抓取頁面時，爬蟲識別指定HTML標簽；搜索器利用網絡爬蟲抓取HTML文本內容；

步驟2：爬蟲利用正則表達式匹配指定標簽，如果沒有匹配到該標簽則進行步驟6，如果匹配到進行步驟3；

步驟3：遍歷標簽并識別標簽中的鏈接屬性，將屬性中的url放入內存中；

步驟4：讀取內容中存儲的url，利用多線程發送請求；

步驟5：將請求返回的文本信息拼接到HTML文檔對應的位置；

步驟6：對HTML文檔內容進行編碼壓縮存入網頁庫。

2.根據權利要求1的所述的基于HTML標簽識別異步加載內容的搜索引擎優化方法，其特征是，HTML標簽數量應當限定在5個以內。

3.根據權利要求1的所述的基于HTML標簽識別異步加載內容的搜索引擎優化方法，其特征是，所述的讀取內存中存儲的url的實現方法，如果某個請求的返回碼等于200、301或302則將返回內容放入緩存，下次再匹配到同樣的url時，直接從緩存中讀取數據，而不再發送新的請求；如果該請求的返回碼大于400，則將該請求放入黑名單，之后再識別到該url時不再發送請求。爬蟲任務結束后，釋放黑名單中的url以及緩存中的存儲內容。

4.根據權利要求1的所述的基于HTML標簽識別異步加載內容的搜索引擎優化方法，其特征是，如果頁面中某部分內容的加載比較耗時，但又需要考慮SEO，那么將這部分業務單獨抽取出一個接口，將接口的url置于標簽<async>的href屬性中，在保證SEO的同時，提升頁面加載速度。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于百卓網絡科技有限公司，未經百卓網絡科技有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201810959330.1/1.html，轉載請聲明來源鉆瓜專利網。