[發明專利]一種基于HTML標簽識別異步加載內容的搜索引擎優化方法在審
| 申請號: | 201810959330.1 | 申請日: | 2018-08-22 |
| 公開(公告)號: | CN108984801A | 公開(公告)日: | 2018-12-11 |
| 發明(設計)人: | 邱明勝 | 申請(專利權)人: | 百卓網絡科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 南京瑞弘專利商標事務所(普通合伙) 32249 | 代理人: | 陳建和 |
| 地址: | 210032 江蘇省南京市*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 標簽 匹配 搜索引擎優化 抓取 爬蟲 異步加載 正則表達式 編碼壓縮 讀取內容 發送請求 鏈接屬性 網絡爬蟲 網頁爬蟲 文本內容 文本信息 多線程 可識別 搜索器 網頁庫 遍歷 放入 內存 頁面 存儲 網頁 返回 | ||
一種基于HTML標簽識別異步加載內容的搜索引擎優化方法,步驟如下:1)在網頁上定義一種可識別的HTML標簽,當網頁爬蟲抓取頁面時,爬蟲識別指定HTML標簽;搜索器利用網絡爬蟲抓取HTML文本內容;2)爬蟲利用正則表達式匹配指定標簽,如果沒有匹配到該標簽則進行6),如果匹配到進行3);3)遍歷標簽并識別標簽中的鏈接屬性,將屬性中的url放入內存中;4)讀取內容中存儲的url,利用多線程發送請求;5)將請求返回的文本信息拼接到HTML文檔對應的位置;6)對HTML文檔內容進行編碼壓縮存入網頁庫。
技術領域
本發明屬于計算機處理技術的服務發現領域,具體涉及一種基于HTML標簽識別異步加載內容的搜索引擎優化方法。
背景技術
隨著阿里、百度、騰訊等企業的成功,互聯網思維越來越頻繁的被大家所提及。越來越多的公司開始利用互聯網提升自身企業的知名度,展示企業產品,介紹企業服務。利用百度、谷歌等搜索引擎的規則,提高網站在有關搜索引擎內的自然排名,這樣的工作被稱為搜索引擎優化(Search Engine Optimization,SEO)。
搜索引擎中有搜索器即網絡爬蟲,是一種自動獲取網頁內容的程序。是搜索引擎的重要組成部分傳統爬蟲從一個或若干初始網頁的URL開始,獲得初始網頁上的URL,在抓取網頁的過程中,不斷從當前頁面上抽取新的URL放入隊列,直到滿足系統的一定停止條件。通俗的講,也就是通過源碼解析來獲得想要的內容。
聚焦爬蟲的工作流程較為復雜,需要根據一定的網頁分析算法過濾與主題無關的鏈接,保留有用的鏈接并將其放入等待抓取的URL隊列。然后,它將根據一定的搜索策略從隊列中選擇下一步要抓取的網頁URL,并重復上述過程,直到達到系統的某一條件時停止。另外,所有被爬蟲抓取的網頁將會被系統存貯,進行一定的分析、過濾,并建立索引,以便之后的查詢和檢索;對于聚焦爬蟲來說,這一過程所得到的分析結果還可能對以后的抓取過程給出反饋和指導。
由于搜索引擎不會收錄異步加載的內容,因此,一直以來頁面內容的展現都會受到SEO的制約。如果頁面內容過多則可能導致響應速度變慢;如果將頁面內容按模塊拆分,則會影響搜索引擎的收錄效果;如果引入緩存,則會增加的系統的復雜度。另一方面如果多個系統都包含一個重復模塊的話,將共用模塊抽取出來,然后在異步加載無疑是一個不錯的方案,但是考慮到seo的話,又不得不放棄。因此我們希望能夠定義一個特殊的HTML標簽,標簽的文檔是異步加載出來的。搜索引擎識別該標簽,并將該標簽中的文檔信息加載到原來抓取的內容中。這樣可以優化用戶體驗、方便程序設計同時不影響搜索引擎的收錄。
發明內容
為解決現有技術存在的問題,本發明目的是,提出一種基于HTML標簽識別異步加載內容的搜索引擎優化方法;在網頁上定義一種可識別的HTML(超文本標記語言)標簽,當網頁爬蟲抓取頁面時,如果識別到該標簽則會進入發起請求,并將請求響應的內容和當前文檔一并返回。
本發明技術方案,一種基于HTML標簽識別異步加載內容的搜索引擎優化方法,具體步驟如下:
步驟1:在網頁上定義一種可識別的HTML(超文本標記語言)標簽,當網頁爬蟲抓取頁面時,爬蟲識別指定HTML標簽;搜索器利用網絡爬蟲抓取HTML文本內容,
步驟2:爬蟲利用正則表達式匹配指定標簽<async></async>,如果沒有匹配到該標簽則進行步驟6,如果匹配到進行步驟3,
步驟3:遍歷標簽并識別標簽中的鏈接屬性,將屬性中的url(統一資源定位符)放入內存中;
步驟4:讀取內容中存儲的url,利用多線程發送請求;
步驟5:將請求返回的文本信息拼接到HTML文檔對應的位置;
步驟6:對HTML文檔內容進行編碼壓縮存入網頁庫。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于百卓網絡科技有限公司,未經百卓網絡科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810959330.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種語音搜題方法及終端設備
- 下一篇:一種在運維審計系統中的設備分類查找方法





