[發明專利]一種基于HTML標簽識別異步加載內容的搜索引擎優化方法在審
| 申請號: | 201810959330.1 | 申請日: | 2018-08-22 |
| 公開(公告)號: | CN108984801A | 公開(公告)日: | 2018-12-11 |
| 發明(設計)人: | 邱明勝 | 申請(專利權)人: | 百卓網絡科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 南京瑞弘專利商標事務所(普通合伙) 32249 | 代理人: | 陳建和 |
| 地址: | 210032 江蘇省南京市*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 標簽 匹配 搜索引擎優化 抓取 爬蟲 異步加載 正則表達式 編碼壓縮 讀取內容 發送請求 鏈接屬性 網絡爬蟲 網頁爬蟲 文本內容 文本信息 多線程 可識別 搜索器 網頁庫 遍歷 放入 內存 頁面 存儲 網頁 返回 | ||
1.一種基于HTML標簽識別異步加載內容的搜索引擎優化方法,其特征是,步驟如下:
步驟1:在網頁上定義一種可識別的HTML標簽,當網頁爬蟲抓取頁面時,爬蟲識別指定HTML標簽;搜索器利用網絡爬蟲抓取HTML文本內容;
步驟2:爬蟲利用正則表達式匹配指定標簽,如果沒有匹配到該標簽則進行步驟6,如果匹配到進行步驟3;
步驟3:遍歷標簽并識別標簽中的鏈接屬性,將屬性中的url放入內存中;
步驟4:讀取內容中存儲的url,利用多線程發送請求;
步驟5:將請求返回的文本信息拼接到HTML文檔對應的位置;
步驟6:對HTML文檔內容進行編碼壓縮存入網頁庫。
2.根據權利要求1的所述的基于HTML標簽識別異步加載內容的搜索引擎優化方法,其特征是,HTML標簽數量應當限定在5個以內。
3.根據權利要求1的所述的基于HTML標簽識別異步加載內容的搜索引擎優化方法,其特征是,所述的讀取內存中存儲的url的實現方法,如果某個請求的返回碼等于200、301或302則將返回內容放入緩存,下次再匹配到同樣的url時,直接從緩存中讀取數據,而不再發送新的請求;如果該請求的返回碼大于400,則將該請求放入黑名單,之后再識別到該url時不再發送請求。爬蟲任務結束后,釋放黑名單中的url以及緩存中的存儲內容。
4.根據權利要求1的所述的基于HTML標簽識別異步加載內容的搜索引擎優化方法,其特征是,如果頁面中某部分內容的加載比較耗時,但又需要考慮SEO,那么將這部分業務單獨抽取出一個接口,將接口的url置于標簽<async>的href屬性中,在保證SEO的同時,提升頁面加載速度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于百卓網絡科技有限公司,未經百卓網絡科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810959330.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種語音搜題方法及終端設備
- 下一篇:一種在運維審計系統中的設備分類查找方法





