[發明專利]目標頁面展示方法、裝置、計算機設備及存儲介質在審
| 申請號: | 202111118207.5 | 申請日: | 2021-09-22 |
| 公開(公告)號: | CN113920509A | 公開(公告)日: | 2022-01-11 |
| 發明(設計)人: | 張博偉;董思文 | 申請(專利權)人: | 北京三快在線科技有限公司 |
| 主分類號: | G06V30/148 | 分類號: | G06V30/148;G06F16/955;G06F16/958;G06V30/14 |
| 代理公司: | 北京三高永信知識產權代理有限責任公司 11138 | 代理人: | 謝冬寒 |
| 地址: | 100080 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 目標 頁面 展示 方法 裝置 計算機 設備 存儲 介質 | ||
本公開揭示了一種目標頁面展示方法、裝置、計算機設備及存儲介質,屬于人工智能技術領域。該方法包括:獲取目標頁面的頁面截圖;基于所述頁面截圖,獲取所述目標頁面的頁面數據,所述頁面數據包括文字內容集合以及圖片內容集合中的至少一種;將所述頁面數據輸入到頁面識別模型中,獲取目標頁面信息;所述頁面識別模型是通過頁面樣本的樣本頁面數據訓練得到的;所述目標頁面信息用于指示目標頁面的位置信息;基于所述目標頁面信息,跳轉展示所述目標頁面。通過頁面識別模型進行目標頁面識別不受限于開源環境,從而解決了可識別的目標頁面局限性的問題,從而提高了目標頁面識別的準確性。
技術領域
本公開涉及人工智能技術領域,特別是涉及一種目標頁面展示方法、裝置、計算機設備及存儲介質。
背景技術
目前,可以通過訓練的分類器識別出開源頁面,并且獲取開源頁面中的開源軟件資源。
在相關技術中,根據所訓練出的分類器識別出目標頁面是否為開源軟件頁面。然后,通過在所識別出的開源軟件頁面中查找開源軟件資源并將其下載到本地,以實現對開源軟件資源的提取過程。
然而,相關技術中的方案,通過訓練出的分類器識別頁面是否為開源軟件頁面,僅針對開源軟件頁面跳轉到開源軟件資源的下載頁面對開源軟件資源進行下載,從而導致支持跳轉的目標頁面具有局限性。
發明內容
本公開提供一種目標頁面展示方法、裝置、計算機設備及存儲介質。所述技術方案如下:
一方面,提供了一種目標頁面展示方法,所述方法包括:
獲取目標頁面的頁面截圖;
基于所述頁面截圖,獲取所述目標頁面的頁面數據,所述頁面數據包括文字內容集合以及圖片內容集合中的至少一種;
將所述頁面數據輸入到頁面識別模型中,獲取目標頁面信息;所述頁面識別模型是通過樣本頁面的樣本頁面數據訓練得到的;所述目標頁面信息用于指示目標頁面的位置信息;
基于所述目標頁面信息,跳轉展示所述目標頁面。
在一種可能的實現方式中,所述將所述頁面數據輸入到頁面識別模型中,獲取目標頁面信息之前,還包括:
獲取所述樣本頁面的所述樣本頁面數據;
將所述樣本頁面數據輸入所述頁面識別模型,獲得所述頁面識別模型輸出的預測頁面信息;
基于所述預測頁面信息,以及所述樣本頁面的頁面信息標簽獲取損失函數值;
基于所述損失函數值對所述頁面識別模型的模型參數進行更新。
在一種可能的實現方式中,所述獲取所述樣本頁面的所述樣本頁面數據,包括:
獲取所述樣本頁面的頁面樣本源碼;
基于所述頁面樣本源碼,獲取所述樣本頁面的所述樣本頁面數據。
在一種可能的實現方式中,所述獲取所述樣本頁面的所述樣本頁面數據,包括:
獲取從第一接口返回的第一數據;所述第一接口是用于展示所述樣本頁面過程中進行數據交互的接口;所述第一數據是用于展示所述樣本頁面的動態數據;
基于所述第一數據,獲取所述樣本頁面的所述樣本頁面數據。
在一種可能的實現方式中,所述基于所述頁面截圖,獲取所述目標頁面的頁面數據,包括:
響應于所述頁面數據包括文字內容集合,基于OCR光學字符識別技術,對所述頁面截圖進行文字識別,獲得所述目標頁面的文字內容集合;
響應于所述頁面數據包括圖片內容集合,基于所述頁面截圖中除了文字區域之外的區域,獲取所述目標頁面的所述圖片內容集合。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京三快在線科技有限公司,未經北京三快在線科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111118207.5/2.html,轉載請聲明來源鉆瓜專利網。





