[發(fā)明專(zhuān)利]網(wǎng)頁(yè)信息的提取方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)有效
| 申請(qǐng)?zhí)枺?/td> | 202110018216.0 | 申請(qǐng)日: | 2021-01-07 |
| 公開(kāi)(公告)號(hào): | CN112732994B | 公開(kāi)(公告)日: | 2022-01-28 |
| 發(fā)明(設(shè)計(jì))人: | 張學(xué)哲;張浩波 | 申請(qǐng)(專(zhuān)利權(quán))人: | 上海攜寧計(jì)算機(jī)科技股份有限公司 |
| 主分類(lèi)號(hào): | G06F16/951 | 分類(lèi)號(hào): | G06F16/951;G06F16/957;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 上海晨皓知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 31260 | 代理人: | 成麗杰 |
| 地址: | 200030 上*** | 國(guó)省代碼: | 上海;31 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 網(wǎng)頁(yè) 信息 提取 方法 裝置 設(shè)備 存儲(chǔ) 介質(zhì) | ||
本發(fā)明公開(kāi)了一種網(wǎng)頁(yè)信息的提取方法、裝置、設(shè)備及存儲(chǔ)介質(zhì),以解決現(xiàn)有網(wǎng)頁(yè)信息提取工作量大、維護(hù)困難、準(zhǔn)確性低的問(wèn)題。所述網(wǎng)頁(yè)信息的提取方法包括:獲取待提取網(wǎng)頁(yè)中每一葉子節(jié)點(diǎn)的葉子節(jié)點(diǎn)路徑;根據(jù)葉子節(jié)點(diǎn)路徑,獲取葉子節(jié)點(diǎn)路徑對(duì)應(yīng)的葉子節(jié)點(diǎn)的葉子節(jié)點(diǎn)信息和葉子節(jié)點(diǎn)的父節(jié)點(diǎn)的父節(jié)點(diǎn)信息,得到葉子節(jié)點(diǎn)的節(jié)點(diǎn)信息;根據(jù)每一葉子節(jié)點(diǎn)路徑和每一節(jié)點(diǎn)信息,構(gòu)建DOM樹(shù);對(duì)DOM樹(shù)中的每一節(jié)點(diǎn)進(jìn)行遍歷,并利用預(yù)先訓(xùn)練獲得的神經(jīng)網(wǎng)絡(luò)識(shí)別模型對(duì)遍歷到的每一葉子節(jié)點(diǎn)進(jìn)行分析,得到每一葉子節(jié)點(diǎn)的分析結(jié)果;根據(jù)每一葉子節(jié)點(diǎn)的分析結(jié)果,確定待提取信息的提取路徑;根據(jù)提取路徑,從待提取網(wǎng)頁(yè)中提取待提取信息。
技術(shù)領(lǐng)域
本發(fā)明實(shí)施例涉及計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)領(lǐng)域,特別涉及一種網(wǎng)頁(yè)信息的提取方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)。
背景技術(shù)
對(duì)全球廣域網(wǎng)(World Wide Web,Web)數(shù)據(jù)挖掘來(lái)說(shuō),網(wǎng)頁(yè)中承載的信息的提取通常作為數(shù)據(jù)挖掘前期的基礎(chǔ)步驟。因此,如何從網(wǎng)頁(yè)中高效準(zhǔn)確地提取出高質(zhì)量的信息,成為近年來(lái)研究的一個(gè)熱點(diǎn)問(wèn)題。
現(xiàn)有技術(shù)中,對(duì)網(wǎng)頁(yè)信息的提取,一種常見(jiàn)的方式是基于預(yù)設(shè)的規(guī)則進(jìn)行提取,具體是基于預(yù)設(shè)的規(guī)則構(gòu)建不同可擴(kuò)展標(biāo)記路徑語(yǔ)言(Extensible Markup Language Path,XPath),即XPath路徑模板,進(jìn)而通過(guò)不同的XPath路徑模板去提取對(duì)應(yīng)的網(wǎng)頁(yè)中的正文;另一種常見(jiàn)的方式是根據(jù)網(wǎng)頁(yè)對(duì)應(yīng)的超文本標(biāo)記語(yǔ)言(Hyper Text Markup Language,HTML)中的全部節(jié)點(diǎn)構(gòu)建文檔對(duì)象模型(Document Object Model,DOM),即全部節(jié)點(diǎn)的多叉樹(shù),進(jìn)而根據(jù)預(yù)先構(gòu)建的節(jié)點(diǎn)分析模型,從多叉樹(shù)的根節(jié)點(diǎn)開(kāi)始分析,最終將分析得出的不需要保留的節(jié)點(diǎn),以及該節(jié)點(diǎn)下的所有節(jié)點(diǎn)的信息舍去,即剪枝,最終根據(jù)剪枝后的多叉樹(shù)確定正文提取路徑,并根據(jù)確定的正文提取路徑對(duì)網(wǎng)頁(yè)進(jìn)行正文提取。
雖然,現(xiàn)有的這兩種方式均可以實(shí)現(xiàn)對(duì)網(wǎng)頁(yè)中正文的提取,但是面對(duì)海量的網(wǎng)頁(yè),基于預(yù)設(shè)的規(guī)則構(gòu)建XPath路徑模板的方式,由于沒(méi)有統(tǒng)一的模板,就需要人工設(shè)定大量的XPath模板,并且為了使XPath路徑模板能夠適用于對(duì)應(yīng)的網(wǎng)頁(yè),就需要根據(jù)網(wǎng)頁(yè)信息的變動(dòng)不停的修改,甚至重寫(xiě)模板,大大增加了人力成本,并且這種方式還會(huì)存在因?yàn)闆](méi)有發(fā)現(xiàn)網(wǎng)頁(yè)改動(dòng)而沒(méi)有對(duì)XPath路徑模板及時(shí)修改,導(dǎo)致最終提取的信息不準(zhǔn)確,或者直接無(wú)法進(jìn)行信息提?。欢鴮?duì)根據(jù)全部節(jié)點(diǎn)構(gòu)建的多叉樹(shù)進(jìn)行正序(或者說(shuō)前序)遍歷,并利用預(yù)先構(gòu)建的節(jié)點(diǎn)分模型對(duì)遍歷到的根節(jié)點(diǎn)進(jìn)行分析的方式,由于需要對(duì)全部節(jié)點(diǎn)進(jìn)行分析,因而導(dǎo)致分析過(guò)程以及構(gòu)建節(jié)點(diǎn)分析模型所需的節(jié)點(diǎn)信息量十分龐大,從而導(dǎo)致整個(gè)實(shí)現(xiàn)方案需要消耗大量的計(jì)算資源、圖形處理器(Graphics Processing Unit,GPU)GPU資源,更會(huì)導(dǎo)致實(shí)現(xiàn)該方案的程序由于內(nèi)存問(wèn)題被系統(tǒng)殺死叫停,訓(xùn)練時(shí)間長(zhǎng)、收斂慢的問(wèn)題。
除此之外,對(duì)于很多正文信息存在于葉子節(jié)點(diǎn)的網(wǎng)頁(yè),采用上述第二種方式,若節(jié)點(diǎn)分析模型將某個(gè)中間節(jié)點(diǎn)誤判為無(wú)需保留的節(jié)點(diǎn),經(jīng)過(guò)剪枝后將會(huì)把原本需要保留的節(jié)點(diǎn)去除,即原本需要保留的正文信息被去除,從而導(dǎo)致最終從網(wǎng)頁(yè)中提取的正文存在不完整、準(zhǔn)確度低的問(wèn)題。
發(fā)明內(nèi)容
本發(fā)明實(shí)施例的目的在于提供一種網(wǎng)頁(yè)信息的提取方法、裝置、設(shè)備及存儲(chǔ)介質(zhì),旨在解決上述技術(shù)問(wèn)題。
為解決上述技術(shù)問(wèn)題,本發(fā)明的實(shí)施例提供了一種網(wǎng)頁(yè)信息的提取方法,包括以下步驟:
獲取待提取網(wǎng)頁(yè)中每一葉子節(jié)點(diǎn)的葉子節(jié)點(diǎn)路徑;
根據(jù)所述葉子節(jié)點(diǎn)路徑,獲取所述葉子節(jié)點(diǎn)路徑對(duì)應(yīng)的所述葉子節(jié)點(diǎn)的葉子節(jié)點(diǎn)信息和所述葉子節(jié)點(diǎn)的父節(jié)點(diǎn)的父節(jié)點(diǎn)信息,得到所述葉子節(jié)點(diǎn)的節(jié)點(diǎn)信息;
根據(jù)每一所述葉子節(jié)點(diǎn)路徑和每一所述葉子節(jié)點(diǎn)的所述節(jié)點(diǎn)信息,構(gòu)建文檔對(duì)象模型DOM樹(shù);
對(duì)所述DOM樹(shù)中的每一節(jié)點(diǎn)進(jìn)行遍歷,并利用預(yù)先訓(xùn)練獲得的神經(jīng)網(wǎng)絡(luò)識(shí)別模型對(duì)遍歷到的每一所述葉子節(jié)點(diǎn)進(jìn)行分析,得到每一所述葉子節(jié)點(diǎn)的所述分析結(jié)果;
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于上海攜寧計(jì)算機(jī)科技股份有限公司,未經(jīng)上海攜寧計(jì)算機(jī)科技股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110018216.0/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 一種搜索網(wǎng)頁(yè)的方法和裝置
- 網(wǎng)頁(yè)類(lèi)型識(shí)別方法以及網(wǎng)頁(yè)類(lèi)型識(shí)別裝置
- 網(wǎng)頁(yè)生成方法及網(wǎng)頁(yè)生成裝置
- 網(wǎng)頁(yè)修改方法及網(wǎng)頁(yè)修改裝置
- 網(wǎng)頁(yè)訪(fǎng)問(wèn)處理方法
- 獲取網(wǎng)頁(yè)信息方法和裝置
- 網(wǎng)頁(yè)資源的獲取方法、裝置及終端
- 一種網(wǎng)頁(yè)制作方法、系統(tǒng)、可讀存儲(chǔ)介質(zhì)及服務(wù)器
- 網(wǎng)頁(yè)安全處理方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 一種網(wǎng)頁(yè)同步的方法、系統(tǒng)
- 信息記錄介質(zhì)、信息記錄方法、信息記錄設(shè)備、信息再現(xiàn)方法和信息再現(xiàn)設(shè)備
- 信息記錄裝置、信息記錄方法、信息記錄介質(zhì)、信息復(fù)制裝置和信息復(fù)制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄設(shè)備、信息重放設(shè)備、信息記錄方法、信息重放方法、以及信息記錄介質(zhì)
- 信息存儲(chǔ)介質(zhì)、信息記錄方法、信息重放方法、信息記錄設(shè)備、以及信息重放設(shè)備
- 信息存儲(chǔ)介質(zhì)、信息記錄方法、信息回放方法、信息記錄設(shè)備和信息回放設(shè)備
- 信息記錄介質(zhì)、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置
- 一種數(shù)據(jù)庫(kù)讀寫(xiě)分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線(xiàn)程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





