日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發(fā)明專(zhuān)利]網(wǎng)頁(yè)信息的提取方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)有效

專(zhuān)利信息
申請(qǐng)?zhí)枺?/td> 202110018216.0 申請(qǐng)日: 2021-01-07
公開(kāi)(公告)號(hào): CN112732994B 公開(kāi)(公告)日: 2022-01-28
發(fā)明(設(shè)計(jì))人: 張學(xué)哲;張浩波 申請(qǐng)(專(zhuān)利權(quán))人: 上海攜寧計(jì)算機(jī)科技股份有限公司
主分類(lèi)號(hào): G06F16/951 分類(lèi)號(hào): G06F16/951;G06F16/957;G06K9/62;G06N3/04;G06N3/08
代理公司: 上海晨皓知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 31260 代理人: 成麗杰
地址: 200030 上*** 國(guó)省代碼: 上海;31
權(quán)利要求書(shū): 查看更多 說(shuō)明書(shū): 查看更多
摘要:
搜索關(guān)鍵詞: 網(wǎng)頁(yè) 信息 提取 方法 裝置 設(shè)備 存儲(chǔ) 介質(zhì)
【說(shuō)明書(shū)】:

發(fā)明公開(kāi)了一種網(wǎng)頁(yè)信息的提取方法、裝置、設(shè)備及存儲(chǔ)介質(zhì),以解決現(xiàn)有網(wǎng)頁(yè)信息提取工作量大、維護(hù)困難、準(zhǔn)確性低的問(wèn)題。所述網(wǎng)頁(yè)信息的提取方法包括:獲取待提取網(wǎng)頁(yè)中每一葉子節(jié)點(diǎn)的葉子節(jié)點(diǎn)路徑;根據(jù)葉子節(jié)點(diǎn)路徑,獲取葉子節(jié)點(diǎn)路徑對(duì)應(yīng)的葉子節(jié)點(diǎn)的葉子節(jié)點(diǎn)信息和葉子節(jié)點(diǎn)的父節(jié)點(diǎn)的父節(jié)點(diǎn)信息,得到葉子節(jié)點(diǎn)的節(jié)點(diǎn)信息;根據(jù)每一葉子節(jié)點(diǎn)路徑和每一節(jié)點(diǎn)信息,構(gòu)建DOM樹(shù);對(duì)DOM樹(shù)中的每一節(jié)點(diǎn)進(jìn)行遍歷,并利用預(yù)先訓(xùn)練獲得的神經(jīng)網(wǎng)絡(luò)識(shí)別模型對(duì)遍歷到的每一葉子節(jié)點(diǎn)進(jìn)行分析,得到每一葉子節(jié)點(diǎn)的分析結(jié)果;根據(jù)每一葉子節(jié)點(diǎn)的分析結(jié)果,確定待提取信息的提取路徑;根據(jù)提取路徑,從待提取網(wǎng)頁(yè)中提取待提取信息。

技術(shù)領(lǐng)域

本發(fā)明實(shí)施例涉及計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)領(lǐng)域,特別涉及一種網(wǎng)頁(yè)信息的提取方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)。

背景技術(shù)

對(duì)全球廣域網(wǎng)(World Wide Web,Web)數(shù)據(jù)挖掘來(lái)說(shuō),網(wǎng)頁(yè)中承載的信息的提取通常作為數(shù)據(jù)挖掘前期的基礎(chǔ)步驟。因此,如何從網(wǎng)頁(yè)中高效準(zhǔn)確地提取出高質(zhì)量的信息,成為近年來(lái)研究的一個(gè)熱點(diǎn)問(wèn)題。

現(xiàn)有技術(shù)中,對(duì)網(wǎng)頁(yè)信息的提取,一種常見(jiàn)的方式是基于預(yù)設(shè)的規(guī)則進(jìn)行提取,具體是基于預(yù)設(shè)的規(guī)則構(gòu)建不同可擴(kuò)展標(biāo)記路徑語(yǔ)言(Extensible Markup Language Path,XPath),即XPath路徑模板,進(jìn)而通過(guò)不同的XPath路徑模板去提取對(duì)應(yīng)的網(wǎng)頁(yè)中的正文;另一種常見(jiàn)的方式是根據(jù)網(wǎng)頁(yè)對(duì)應(yīng)的超文本標(biāo)記語(yǔ)言(Hyper Text Markup Language,HTML)中的全部節(jié)點(diǎn)構(gòu)建文檔對(duì)象模型(Document Object Model,DOM),即全部節(jié)點(diǎn)的多叉樹(shù),進(jìn)而根據(jù)預(yù)先構(gòu)建的節(jié)點(diǎn)分析模型,從多叉樹(shù)的根節(jié)點(diǎn)開(kāi)始分析,最終將分析得出的不需要保留的節(jié)點(diǎn),以及該節(jié)點(diǎn)下的所有節(jié)點(diǎn)的信息舍去,即剪枝,最終根據(jù)剪枝后的多叉樹(shù)確定正文提取路徑,并根據(jù)確定的正文提取路徑對(duì)網(wǎng)頁(yè)進(jìn)行正文提取。

雖然,現(xiàn)有的這兩種方式均可以實(shí)現(xiàn)對(duì)網(wǎng)頁(yè)中正文的提取,但是面對(duì)海量的網(wǎng)頁(yè),基于預(yù)設(shè)的規(guī)則構(gòu)建XPath路徑模板的方式,由于沒(méi)有統(tǒng)一的模板,就需要人工設(shè)定大量的XPath模板,并且為了使XPath路徑模板能夠適用于對(duì)應(yīng)的網(wǎng)頁(yè),就需要根據(jù)網(wǎng)頁(yè)信息的變動(dòng)不停的修改,甚至重寫(xiě)模板,大大增加了人力成本,并且這種方式還會(huì)存在因?yàn)闆](méi)有發(fā)現(xiàn)網(wǎng)頁(yè)改動(dòng)而沒(méi)有對(duì)XPath路徑模板及時(shí)修改,導(dǎo)致最終提取的信息不準(zhǔn)確,或者直接無(wú)法進(jìn)行信息提?。欢鴮?duì)根據(jù)全部節(jié)點(diǎn)構(gòu)建的多叉樹(shù)進(jìn)行正序(或者說(shuō)前序)遍歷,并利用預(yù)先構(gòu)建的節(jié)點(diǎn)分模型對(duì)遍歷到的根節(jié)點(diǎn)進(jìn)行分析的方式,由于需要對(duì)全部節(jié)點(diǎn)進(jìn)行分析,因而導(dǎo)致分析過(guò)程以及構(gòu)建節(jié)點(diǎn)分析模型所需的節(jié)點(diǎn)信息量十分龐大,從而導(dǎo)致整個(gè)實(shí)現(xiàn)方案需要消耗大量的計(jì)算資源、圖形處理器(Graphics Processing Unit,GPU)GPU資源,更會(huì)導(dǎo)致實(shí)現(xiàn)該方案的程序由于內(nèi)存問(wèn)題被系統(tǒng)殺死叫停,訓(xùn)練時(shí)間長(zhǎng)、收斂慢的問(wèn)題。

除此之外,對(duì)于很多正文信息存在于葉子節(jié)點(diǎn)的網(wǎng)頁(yè),采用上述第二種方式,若節(jié)點(diǎn)分析模型將某個(gè)中間節(jié)點(diǎn)誤判為無(wú)需保留的節(jié)點(diǎn),經(jīng)過(guò)剪枝后將會(huì)把原本需要保留的節(jié)點(diǎn)去除,即原本需要保留的正文信息被去除,從而導(dǎo)致最終從網(wǎng)頁(yè)中提取的正文存在不完整、準(zhǔn)確度低的問(wèn)題。

發(fā)明內(nèi)容

本發(fā)明實(shí)施例的目的在于提供一種網(wǎng)頁(yè)信息的提取方法、裝置、設(shè)備及存儲(chǔ)介質(zhì),旨在解決上述技術(shù)問(wèn)題。

為解決上述技術(shù)問(wèn)題,本發(fā)明的實(shí)施例提供了一種網(wǎng)頁(yè)信息的提取方法,包括以下步驟:

獲取待提取網(wǎng)頁(yè)中每一葉子節(jié)點(diǎn)的葉子節(jié)點(diǎn)路徑;

根據(jù)所述葉子節(jié)點(diǎn)路徑,獲取所述葉子節(jié)點(diǎn)路徑對(duì)應(yīng)的所述葉子節(jié)點(diǎn)的葉子節(jié)點(diǎn)信息和所述葉子節(jié)點(diǎn)的父節(jié)點(diǎn)的父節(jié)點(diǎn)信息,得到所述葉子節(jié)點(diǎn)的節(jié)點(diǎn)信息;

根據(jù)每一所述葉子節(jié)點(diǎn)路徑和每一所述葉子節(jié)點(diǎn)的所述節(jié)點(diǎn)信息,構(gòu)建文檔對(duì)象模型DOM樹(shù);

對(duì)所述DOM樹(shù)中的每一節(jié)點(diǎn)進(jìn)行遍歷,并利用預(yù)先訓(xùn)練獲得的神經(jīng)網(wǎng)絡(luò)識(shí)別模型對(duì)遍歷到的每一所述葉子節(jié)點(diǎn)進(jìn)行分析,得到每一所述葉子節(jié)點(diǎn)的所述分析結(jié)果;

下載完整專(zhuān)利技術(shù)內(nèi)容需要扣除積分,VIP會(huì)員可以免費(fèi)下載。

該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于上海攜寧計(jì)算機(jī)科技股份有限公司,未經(jīng)上海攜寧計(jì)算機(jī)科技股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/202110018216.0/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。

×

專(zhuān)利文獻(xiàn)下載

說(shuō)明:

1、專(zhuān)利原文基于中國(guó)國(guó)家知識(shí)產(chǎn)權(quán)局專(zhuān)利說(shuō)明書(shū);

2、支持發(fā)明專(zhuān)利 、實(shí)用新型專(zhuān)利、外觀(guān)設(shè)計(jì)專(zhuān)利(升級(jí)中);

3、專(zhuān)利數(shù)據(jù)每周兩次同步更新,支持Adobe PDF格式;

4、內(nèi)容包括專(zhuān)利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖技術(shù)構(gòu)造圖;

5、已全新升級(jí)為極速版,下載速度顯著提升!歡迎使用!

請(qǐng)您登陸后,進(jìn)行下載,點(diǎn)擊【登陸】 【注冊(cè)】

關(guān)于我們 尋求報(bào)道 投稿須知 廣告合作 版權(quán)聲明 網(wǎng)站地圖 友情鏈接 企業(yè)標(biāo)識(shí) 聯(lián)系我們

鉆瓜專(zhuān)利網(wǎng)在線(xiàn)咨詢(xún)

周一至周五 9:00-18:00

咨詢(xún)?cè)诰€(xiàn)客服咨詢(xún)?cè)诰€(xiàn)客服
tel code back_top
主站蜘蛛池模板: 欧美日韩综合一区 | 蜜臀久久99静品久久久久久| 欧美激情精品一区| 国产69精品久久777的优势| 亚洲激情中文字幕| 午夜无人区免费网站| 97一区二区国产好的精华液| 性欧美一区二区三区| 欧美xxxxxhd| 日韩精品少妇一区二区在线看| 久久一级精品视频| 国产高清在线一区| 午夜毛片在线| 亚洲高清国产精品| 欧美老肥婆性猛交视频| 日本一二区视频| 午夜理伦影院| 91精品视频一区二区| 色婷婷精品久久二区二区蜜臂av| 欧美一区二区三区在线视频播放| 91精品视频在线免费观看| 国模精品免费看久久久| 国产精品电影免费观看| 电影午夜精品一区二区三区| 久久免费视频一区| 国产伦精品一区二区三区免费迷| 天堂av色婷婷一区二区三区| 国产在线干| 亚洲欧美一区二区精品久久久| 欧美一区二区三区四区五区六区| 视频二区一区国产精品天天| 偷拍区另类欧美激情日韩91| 日本午夜影视| 久久九九亚洲| 国产午夜一级一片免费播放| 久久99国产精品久久99| 精品久久久久久亚洲综合网 | 国产日韩欧美在线影视| 久爱视频精品| 91国产在线看| 午夜国产一区二区三区四区| 国产欧美三区| 亚洲精品中文字幕乱码三区91| 国产天堂一区二区三区| 亚洲va欧美va国产综合先锋| 亚洲精品国产suv| 日本精品视频一区二区三区| 国产农村妇女精品一区二区| 97人人模人人爽人人喊0| 久久夜色精品国产亚洲| 国产精品视频1区| 国产视频二区在线观看| 久久精品国产久精国产| 欧美一区二区综合| 欧美激情综合在线| 欧美日韩精品影院| 午夜叫声理论片人人影院| 国产一区二区三区国产| 日韩av中文字幕在线| 性色av色香蕉一区二区| 一区二区国产盗摄色噜噜 | 一级午夜电影| 日韩亚洲欧美一区| 亚洲精品久久久久999中文字幕| 国产91免费观看| 久久第一区| 99精品国产免费久久| 国产精品欧美久久| 在线观看v国产乱人精品一区二区 国产日韩欧美精品一区二区 | 欧美日韩综合一区| 国产一区二区精品在线| 日韩精品一区二区三区四区在线观看 | 国产视频1区2区| 欧美亚洲精品suv一区| 欧美日韩亚洲国产一区| 香港三日本三级三级三级| 国产一区二区片| 欧美日韩一区二区三区在线播放| 欧美精品综合视频| 亚洲精品久久久久www| 欧美一级免费在线视频| 91麻豆国产自产在线观看hd |