日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發(fā)明專利]網(wǎng)頁信息的提取方法、裝置、設備及存儲介質有效

專利信息
申請?zhí)枺?/td> 202110018216.0 申請日: 2021-01-07
公開(公告)號: CN112732994B 公開(公告)日: 2022-01-28
發(fā)明(設計)人: 張學哲;張浩波 申請(專利權)人: 上海攜寧計算機科技股份有限公司
主分類號: G06F16/951 分類號: G06F16/951;G06F16/957;G06K9/62;G06N3/04;G06N3/08
代理公司: 上海晨皓知識產(chǎn)權代理事務所(普通合伙) 31260 代理人: 成麗杰
地址: 200030 上*** 國省代碼: 上海;31
權利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關鍵詞: 網(wǎng)頁 信息 提取 方法 裝置 設備 存儲 介質
【權利要求書】:

1.一種網(wǎng)頁信息的提取方法,其特征在于,包括:

獲取待提取網(wǎng)頁中每一葉子節(jié)點的葉子節(jié)點路徑;

根據(jù)所述葉子節(jié)點路徑,獲取所述葉子節(jié)點路徑對應的所述葉子節(jié)點的葉子節(jié)點信息和所述葉子節(jié)點的父節(jié)點的父節(jié)點信息,得到所述葉子節(jié)點的節(jié)點信息;

其中,所述葉子節(jié)點的葉子節(jié)點信息包括:葉子節(jié)點的tag標簽、葉子節(jié)點的class屬性和葉子節(jié)點的文本長度;

其中,所述葉子節(jié)點的父節(jié)點的父節(jié)點信息包括:葉子節(jié)點對應的父節(jié)點的tag標簽和葉子節(jié)點對應的父節(jié)點的class屬性;

根據(jù)每一所述葉子節(jié)點路徑和每一所述葉子節(jié)點的節(jié)點信息,構建文檔對象模型DOM樹;

所述根據(jù)每一所述葉子節(jié)點路徑和每一所述葉子節(jié)點的節(jié)點信息,構建文檔對象模型DOM樹,包括:

根據(jù)每一所述葉子節(jié)點路徑,構建DOM樹框架;

將每一所述葉子節(jié)點的節(jié)點信息記錄到所述DOM樹框架中對應的所述葉子節(jié)點所在的位置,得到所述DOM樹;

對所述DOM樹中的每一節(jié)點進行遍歷,并利用預先訓練獲得的神經(jīng)網(wǎng)絡識別模型對遍歷到的每一所述葉子節(jié)點進行分析,得到每一所述葉子節(jié)點的分析結果;

根據(jù)每一所述葉子節(jié)點的所述分析結果,確定待提取信息的提取路徑;

根據(jù)所述提取路徑,從所述待提取網(wǎng)頁中提取所述待提取信息。

2.根據(jù)權利要求1所述的網(wǎng)頁信息的提取方法,其特征在于,所述獲取待提取網(wǎng)頁中每一葉子節(jié)點的葉子節(jié)點路徑,包括:

獲取所述待提取網(wǎng)頁的超文本標記語言HTML源碼;

對所述HTML源碼進行解析,得到所述待提取網(wǎng)頁包括的所有節(jié)點的路徑信息;

對所述路徑信息去重,得到所述待提取網(wǎng)頁中每一所述葉子節(jié)點的所述葉子節(jié)點路徑。

3.根據(jù)權利要求1所述的網(wǎng)頁信息的提取方法,其特征在于,所述對所述DOM樹中的每一節(jié)點進行遍歷,并利用預先訓練獲得的神經(jīng)網(wǎng)絡識別模型對遍歷到的每一所述葉子節(jié)點進行分析,得到每一所述葉子節(jié)點的分析結果,包括:

對所述DOM樹中的每一節(jié)點進行遍歷,并獲取遍歷到的每一所述葉子節(jié)點的節(jié)點信息;

按序將遍歷到的每一所述葉子節(jié)點的節(jié)點信息輸入預先訓練獲得的神經(jīng)網(wǎng)絡識別模型,并獲取所述神經(jīng)網(wǎng)絡識別模型的輸出結果,得到每一所述葉子節(jié)點的所述分析結果。

4.根據(jù)權利要求3所述的網(wǎng)頁信息的提取方法,其特征在于,所述按序將遍歷到的每一所述葉子節(jié)點的節(jié)點信息輸入預先訓練獲得的神經(jīng)網(wǎng)絡識別模型,包括:

對于遍歷到的每一所述葉子節(jié)點的節(jié)點信息,分別對所述葉子節(jié)點的tag標簽、所述葉子節(jié)點的class屬性、所述葉子節(jié)點對應的父節(jié)點的tag標簽和所述葉子節(jié)點對應的父節(jié)點的class屬性進行向量轉換,得到四個詞向量;

按序將遍歷到的每一所述葉子節(jié)點對應的四個詞向量和所述葉子節(jié)點的本文長度輸入預先訓練獲得的神經(jīng)網(wǎng)絡識別模型。

5.根據(jù)權利要求1所述的網(wǎng)頁信息的提取方法,其特征在于,所述根據(jù)每一所述葉子節(jié)點的所述分析結果,確定待提取信息的提取路徑,包括:

根據(jù)每一所述葉子節(jié)點的所述分析結果,確定所述DOM樹中需要保留的節(jié)點;

根據(jù)所述DOM樹中需要保留的節(jié)點,確定待提取信息的提取路徑。

6.根據(jù)權利要求5所述的網(wǎng)頁信息的提取方法,其特征在于,所述根據(jù)每一所述葉子節(jié)點的所述分析結果,確定所述DOM樹中需要保留的節(jié)點,包括:

對于所述DOM樹中的每一所述父節(jié)點,根據(jù)所述父節(jié)點下所有子節(jié)點的分析結果,確定所述父節(jié)點是否需要保留;

在所述DOM樹中標記需要保留的所述父節(jié)點,并根據(jù)每一所述葉子節(jié)點的所述分析結果標記需要保留的所述葉子節(jié)點,得到所述DOM樹中需要保留的節(jié)點。

7.根據(jù)權利要求5所述的網(wǎng)頁信息的提取方法,其特征在于,所述根據(jù)所述DOM樹中需要保留的節(jié)點,確定待提取信息的提取路徑,包括:

按照預設的遍歷的方式對所述DOM樹中需要保留的節(jié)點進行遍歷,將遍歷到的每一所述節(jié)點的tag標簽按序添加到預先構建的存儲介質,得到所述待提取信息的所述提取路徑。

下載完整專利技術內容需要扣除積分,VIP會員可以免費下載。

該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海攜寧計算機科技股份有限公司,未經(jīng)上海攜寧計算機科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/202110018216.0/1.html,轉載請聲明來源鉆瓜專利網(wǎng)。

×

專利文獻下載

說明:

1、專利原文基于中國國家知識產(chǎn)權局專利說明書;

2、支持發(fā)明專利 、實用新型專利、外觀設計專利(升級中);

3、專利數(shù)據(jù)每周兩次同步更新,支持Adobe PDF格式;

4、內容包括專利技術的結構示意圖流程工藝圖技術構造圖

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進行下載,點擊【登陸】 【注冊】

關于我們 尋求報道 投稿須知 廣告合作 版權聲明 網(wǎng)站地圖 友情鏈接 企業(yè)標識 聯(lián)系我們

鉆瓜專利網(wǎng)在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 精品国产一区二| 日韩精品免费一区二区中文字幕| 国产综合亚洲精品| 99国精视频一区一区一三| 精品国产乱码一区二区三区在线| 国产美女一区二区三区在线观看| 国产电影精品一区二区三区| 欧美精品九九| 国产欧美日韩一级大片| 狠狠色丁香久久婷婷综合_中| 欧美精品国产精品| 狠狠躁夜夜av| 国产欧美精品一区二区三区-老狼| 国产精品自拍不卡| 三上悠亚亚洲精品一区二区 | 日韩欧美国产精品一区| 亚洲一二三在线| 香蕉久久国产| 日韩精品一区二区三区中文字幕| 欧美一区二区三区四区五区六区| 国产人成看黄久久久久久久久| 大bbw大bbw超大bbw| 久久一区欧美| 欧美日韩一级二级三级| 精品国产一区二区三区免费| 麻豆天堂网| 久久精品国语| 国产精品天堂| 午夜剧场一级片| 夜色av网站| 欧美一区二区三区激情视频| 96精品国产| 国产欧美日韩一区二区三区四区| 97人人模人人爽人人喊小说| 99久久免费精品国产男女性高好| 国产精品二区一区| 国产精品香蕉在线的人| 视频一区欧美| 99国产精品免费| 国产日韩欧美在线影视| 91精品一区二区中文字幕| 久久99精品国产麻豆婷婷洗澡| 亚洲一区2区三区| 狠狠操很很干| 99国产精品久久久久99打野战| 欧美精品免费看| 香蕉视频在线观看一区二区| 欧美日韩一级二级三级| 亚洲欧美国产精品一区二区| 国产精品一区二区不卡| 亚洲欧洲日韩在线| 国产.高清,露脸,对白| 欧美日韩久久精品| 国产精品久久久久久久久久久新郎 | 91波多野结衣| av不卡一区二区三区| 91波多野结衣| 精品综合久久久久| 国产精品一二二区| 国产亚洲精品久久久久久久久动漫| 日本久久不卡| 一区二区三区国产精品视频| 亚洲乱小说| 日韩av在线中文| 国产精品一区在线观看你懂的 | 激情久久久| 久久99亚洲精品久久99果| 亚洲福利视频二区| 一区二区欧美视频| 偷拍区另类欧美激情日韩91| 美女直播一区二区三区| 国产伦精品一区二区三区免| 日本一区午夜艳熟免费| 国产免费一区二区三区四区| 国产全肉乱妇杂乱视频在线观看| 99久久国产综合精品尤物酒店| 中文字幕在线播放一区| 久久99精品久久久秒播| 中文字幕一区二区三区乱码| 91久久精品在线| 午夜色影院| 精品美女一区二区三区|