[發(fā)明專利]一種基于正文節(jié)點(diǎn)特征的提取網(wǎng)頁正文的方法和系統(tǒng)在審

申請?zhí)枺?/td>	201910947241.X	申請日：	2019-09-30
公開（公告）號：	CN110851679A	公開（公告）日：	2020-02-28
發(fā)明（設(shè)計）人：	楊永全;翟世平;魏志強(qiáng)	申請（專利權(quán)）人：	中國海洋大學(xué);青島海洋科學(xué)與技術(shù)國家實(shí)驗(yàn)室發(fā)展中心
主分類號：	G06F16/951	分類號：	G06F16/951;G06F16/9535;G06F40/14
代理公司：	北京工信聯(lián)合知識產(chǎn)權(quán)代理有限公司 11266	代理人：	姜麗樓
地址：	266100 山***	國省代碼：	山東;37
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	一種基于正文節(jié)點(diǎn) 特征提取網(wǎng)頁方法系統(tǒng)
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

本發(fā)明公開了一種基于正文節(jié)點(diǎn)特征的提取網(wǎng)頁正文的方法和系統(tǒng)，屬于互聯(lián)網(wǎng)技術(shù)領(lǐng)域。本發(fā)明方法包括：獲取待提取網(wǎng)頁的HTML源代碼；對HTML源代碼進(jìn)行過濾并提取出HTML源代碼HTML DOM樹中元素關(guān)鍵節(jié)點(diǎn)，針對元素關(guān)鍵節(jié)點(diǎn)構(gòu)建列表；獲取每個元素關(guān)鍵節(jié)點(diǎn)的節(jié)點(diǎn)值為正文節(jié)點(diǎn)屬性值的概率并進(jìn)行排序；按正文節(jié)點(diǎn)屬性值的概率的順序?qū)υ仃P(guān)鍵節(jié)點(diǎn)進(jìn)行正文元素提取，確定待判斷網(wǎng)頁正文為網(wǎng)頁正文。本發(fā)明在網(wǎng)頁正文提取過程中，考慮到HTML網(wǎng)頁DOM樹元素的屬性節(jié)點(diǎn)對標(biāo)記正文節(jié)點(diǎn)的重要作用，將網(wǎng)頁節(jié)點(diǎn)關(guān)鍵屬性值id和class與正文節(jié)點(diǎn)屬性值特征對比，準(zhǔn)確找出正文節(jié)點(diǎn)值，結(jié)合HTML解析器技術(shù)準(zhǔn)確抽取正文。

技術(shù)領(lǐng)域

本發(fā)明涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域，并且更具體地，涉及一種基于正文節(jié)點(diǎn)特征的提取網(wǎng)頁正文的方法和系統(tǒng)。

背景技術(shù)

在WEB海量信息處理的背景下，WEB智能信息檢索、文檔自動摘要、輿情分析等等需求應(yīng)運(yùn)而生。這些需求都是對互聯(lián)網(wǎng)中海量的WEB頁面的采集及分析的過程。通常情況下，這類技術(shù)都是通過網(wǎng)絡(luò)爬蟲來從網(wǎng)絡(luò)上抓取原始網(wǎng)頁的信息，而原始信息中除了用戶所感興趣的正文信息之外，還通常會包含有各種網(wǎng)絡(luò)噪音數(shù)據(jù)，比如廣告鏈接、標(biāo)簽信息、導(dǎo)航鏈接、評論等等。這些噪音數(shù)據(jù)的存在，極大地影響了網(wǎng)絡(luò)檢索的效率，也降低了人們的閱讀效率。正確、高效地在半結(jié)構(gòu)化、異構(gòu)性強(qiáng)的HTML源文件中提取到文章正文，在基于互聯(lián)網(wǎng)的數(shù)據(jù)挖掘、信息檢索等領(lǐng)域具有著重要的意義。

隨著互聯(lián)網(wǎng)的迅猛發(fā)展,WEB所承載的數(shù)據(jù)與日俱增,其信息冗余、形式多樣、處理困難等問題也越來越突出,因此,WEB信息提取應(yīng)運(yùn)而生。又由于WEB頁面中包含了大量的與主題無關(guān)的信息,影響了用戶從中快速定位并獲取正文內(nèi)容。所以,對頁面正文信息的提取顯得尤為重要,其不但可以節(jié)省用戶大量的時間和精力,而且提取結(jié)果也可以用于數(shù)據(jù)挖掘等各個方面。WEB信息提取主要針對無結(jié)構(gòu)或者半結(jié)構(gòu)化的WEB頁面,且主流大多基于HTML結(jié)構(gòu)。在已有的相關(guān)研究中,研究者在關(guān)注HTML元素時忽略了屬性標(biāo)簽的語義信息對其包含的內(nèi)容的影響，導(dǎo)致無法正確找到正文節(jié)點(diǎn)，抽取正文內(nèi)容比較困難、抽取效率低。

網(wǎng)頁正文提取技術(shù)：

目前在網(wǎng)頁正文提取領(lǐng)域，由于HTML頁面可以解析成DOM樹，頁面中所有的標(biāo)簽和文本信息等都可以被轉(zhuǎn)換為樹中的一個節(jié)點(diǎn)，對數(shù)據(jù)的提取可以轉(zhuǎn)化成對一棵樹進(jìn)行操作。由于具有結(jié)構(gòu)上的優(yōu)勢，因此，基于HTML結(jié)構(gòu)的信息提取逐漸成為研究的主流，方法效果比較好的是基于統(tǒng)計學(xué)習(xí)和文本特征的網(wǎng)頁正文提取方法。該方法對單正文和多正文的網(wǎng)頁

提取效果都較好，該方法首先將網(wǎng)頁構(gòu)造成一顆標(biāo)簽樹，然后通過統(tǒng)計學(xué)習(xí)獲取一條從根節(jié)點(diǎn)一直到葉節(jié)點(diǎn)(必須包含正文的葉節(jié)點(diǎn))的路徑，自動學(xué)習(xí)這條路徑上的正文特征，用于找出擁有同樣正文特征的路徑，找出正文區(qū)域和子樹主干，再然后，根據(jù)所學(xué)到的正文特征，找出正文區(qū)域中的類似子樹主干，最后，通過對獲取的正文區(qū)域中的內(nèi)容進(jìn)行剪枝，得到頁面的主要信息。該方法雖然能夠有效的提取出正文信息，但需要事先進(jìn)行路徑標(biāo)記，且學(xué)習(xí)過程較長，并且對博客類的網(wǎng)頁不適用。

字符串相似性度量技術(shù)：

字符串相似度度量是尋找兩個字符串的公共子串，利用公共子串的長度根據(jù)相應(yīng)的公式來衡量兩個字符串的相似程度。字符串相似度在很多領(lǐng)域都有廣泛的應(yīng)用。如在抄襲檢測系統(tǒng)、自動評分系統(tǒng)、防代碼剽竊系統(tǒng)、數(shù)據(jù)清洗、網(wǎng)頁搜索和DNA序列匹配等領(lǐng)域都有應(yīng)用。目前，字符串相似度度量算法有很多，如編輯距離算法，最長公共子串算法、Heckel算法、貪心字符串匹配算法及RKR-GST算法等。這些算法因?yàn)閷?shí)現(xiàn)的原理不同，得到的字符串相似度也會有些差別，進(jìn)而應(yīng)用的領(lǐng)域也會有所不同。

發(fā)明內(nèi)容

針對上述問題，本發(fā)明提出了一種基于正文節(jié)點(diǎn)特征的提取網(wǎng)頁正文的方法，包括：

獲取待提取網(wǎng)頁的HTML源代碼；

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費(fèi)下載。

免登錄下載普通用戶下載升級VIP會員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國海洋大學(xué);青島海洋科學(xué)與技術(shù)國家實(shí)驗(yàn)室發(fā)展中心，未經(jīng)中國海洋大學(xué);青島海洋科學(xué)與技術(shù)國家實(shí)驗(yàn)室發(fā)展中心許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201910947241.X/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

上一篇：軟件多渠道發(fā)布方法及相關(guān)設(shè)備
下一篇：一種定量表征彎曲走滑斷層增壓、釋壓強(qiáng)度的方法

同類專利

專利分類

G 物理

G06 計算；推算；計數(shù)
G06F 電數(shù)字?jǐn)?shù)據(jù)處理

免登錄下載普通用戶下載升級VIP會員，免費(fèi)下載

專利文獻(xiàn)下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實(shí)用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進(jìn)行下載，點(diǎn)擊【登陸】【注冊】