[發(fā)明專利]一種基于正文節(jié)點(diǎn)特征的提取網(wǎng)頁正文的方法和系統(tǒng)在審
| 申請?zhí)枺?/td> | 201910947241.X | 申請日: | 2019-09-30 |
| 公開(公告)號: | CN110851679A | 公開(公告)日: | 2020-02-28 |
| 發(fā)明(設(shè)計)人: | 楊永全;翟世平;魏志強(qiáng) | 申請(專利權(quán))人: | 中國海洋大學(xué);青島海洋科學(xué)與技術(shù)國家實(shí)驗(yàn)室發(fā)展中心 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F16/9535;G06F40/14 |
| 代理公司: | 北京工信聯(lián)合知識產(chǎn)權(quán)代理有限公司 11266 | 代理人: | 姜麗樓 |
| 地址: | 266100 山*** | 國省代碼: | 山東;37 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 正文 節(jié)點(diǎn) 特征 提取 網(wǎng)頁 方法 系統(tǒng) | ||
本發(fā)明公開了一種基于正文節(jié)點(diǎn)特征的提取網(wǎng)頁正文的方法和系統(tǒng),屬于互聯(lián)網(wǎng)技術(shù)領(lǐng)域。本發(fā)明方法包括:獲取待提取網(wǎng)頁的HTML源代碼;對HTML源代碼進(jìn)行過濾并提取出HTML源代碼HTML DOM樹中元素關(guān)鍵節(jié)點(diǎn),針對元素關(guān)鍵節(jié)點(diǎn)構(gòu)建列表;獲取每個元素關(guān)鍵節(jié)點(diǎn)的節(jié)點(diǎn)值為正文節(jié)點(diǎn)屬性值的概率并進(jìn)行排序;按正文節(jié)點(diǎn)屬性值的概率的順序?qū)υ仃P(guān)鍵節(jié)點(diǎn)進(jìn)行正文元素提取,確定待判斷網(wǎng)頁正文為網(wǎng)頁正文。本發(fā)明在網(wǎng)頁正文提取過程中,考慮到HTML網(wǎng)頁DOM樹元素的屬性節(jié)點(diǎn)對標(biāo)記正文節(jié)點(diǎn)的重要作用,將網(wǎng)頁節(jié)點(diǎn)關(guān)鍵屬性值id和class與正文節(jié)點(diǎn)屬性值特征對比,準(zhǔn)確找出正文節(jié)點(diǎn)值,結(jié)合HTML解析器技術(shù)準(zhǔn)確抽取正文。
技術(shù)領(lǐng)域
本發(fā)明涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,并且更具體地,涉及一種基于正文節(jié)點(diǎn)特征的提取網(wǎng)頁正文的方法和系統(tǒng)。
背景技術(shù)
在WEB海量信息處理的背景下,WEB智能信息檢索、文檔自動摘要、輿情分析等等需求應(yīng)運(yùn)而生。這些需求都是對互聯(lián)網(wǎng)中海量的WEB頁面的采集及分析的過程。通常情況下,這類技術(shù)都是通過網(wǎng)絡(luò)爬蟲來從網(wǎng)絡(luò)上抓取原始網(wǎng)頁的信息,而原始信息中除了用戶所感興趣的正文信息之外,還通常會包含有各種網(wǎng)絡(luò)噪音數(shù)據(jù),比如廣告鏈接、標(biāo)簽信息、導(dǎo)航鏈接、評論等等。這些噪音數(shù)據(jù)的存在,極大地影響了網(wǎng)絡(luò)檢索的效率,也降低了人們的閱讀效率。正確、高效地在半結(jié)構(gòu)化、異構(gòu)性強(qiáng)的HTML源文件中提取到文章正文,在基于互聯(lián)網(wǎng)的數(shù)據(jù)挖掘、信息檢索等領(lǐng)域具有著重要的意義。
隨著互聯(lián)網(wǎng)的迅猛發(fā)展,WEB所承載的數(shù)據(jù)與日俱增,其信息冗余、形式多樣、處理困難等問題也越來越突出,因此,WEB信息提取應(yīng)運(yùn)而生。又由于WEB頁面中包含了大量的與主題無關(guān)的信息,影響了用戶從中快速定位并獲取正文內(nèi)容。所以,對頁面正文信息的提取顯得尤為重要,其不但可以節(jié)省用戶大量的時間和精力,而且提取結(jié)果也可以用于數(shù)據(jù)挖掘等各個方面。WEB信息提取主要針對無結(jié)構(gòu)或者半結(jié)構(gòu)化的WEB頁面,且主流大多基于HTML結(jié)構(gòu)。在已有的相關(guān)研究中,研究者在關(guān)注HTML元素時忽略了屬性標(biāo)簽的語義信息對其包含的內(nèi)容的影響,導(dǎo)致無法正確找到正文節(jié)點(diǎn),抽取正文內(nèi)容比較困難、抽取效率低。
網(wǎng)頁正文提取技術(shù):
目前在網(wǎng)頁正文提取領(lǐng)域,由于HTML頁面可以解析成DOM樹,頁面中所有的標(biāo)簽和文本信息等都可以被轉(zhuǎn)換為樹中的一個節(jié)點(diǎn),對數(shù)據(jù)的提取可以轉(zhuǎn)化成對一棵樹進(jìn)行操作。由于具有結(jié)構(gòu)上的優(yōu)勢,因此,基于HTML結(jié)構(gòu)的信息提取逐漸成為研究的主流,方法效果比較好的是基于統(tǒng)計學(xué)習(xí)和文本特征的網(wǎng)頁正文提取方法。該方法對單正文和多正文的網(wǎng)頁
提取效果都較好,該方法首先將網(wǎng)頁構(gòu)造成一顆標(biāo)簽樹,然后通過統(tǒng)計學(xué)習(xí)獲取一條從根節(jié)點(diǎn)一直到葉節(jié)點(diǎn)(必須包含正文的葉節(jié)點(diǎn))的路徑,自動學(xué)習(xí)這條路徑上的正文特征,用于找出擁有同樣正文特征的路徑,找出正文區(qū)域和子樹主干,再然后,根據(jù)所學(xué)到的正文特征,找出正文區(qū)域中的類似子樹主干,最后,通過對獲取的正文區(qū)域中的內(nèi)容進(jìn)行剪枝,得到頁面的主要信息。該方法雖然能夠有效的提取出正文信息,但需要事先進(jìn)行路徑標(biāo)記,且學(xué)習(xí)過程較長,并且對博客類的網(wǎng)頁不適用。
字符串相似性度量技術(shù):
字符串相似度度量是尋找兩個字符串的公共子串,利用公共子串的長度根據(jù)相應(yīng)的公式來衡量兩個字符串的相似程度。字符串相似度在很多領(lǐng)域都有廣泛的應(yīng)用。如在抄襲檢測系統(tǒng)、自動評分系統(tǒng)、防代碼剽竊系統(tǒng)、數(shù)據(jù)清洗、網(wǎng)頁搜索和DNA序列匹配等領(lǐng)域都有應(yīng)用。目前,字符串相似度度量算法有很多,如編輯距離算法,最長公共子串算法、Heckel算法、貪心字符串匹配算法及RKR-GST算法等。這些算法因?yàn)閷?shí)現(xiàn)的原理不同,得到的字符串相似度也會有些差別,進(jìn)而應(yīng)用的領(lǐng)域也會有所不同。
發(fā)明內(nèi)容
針對上述問題,本發(fā)明提出了一種基于正文節(jié)點(diǎn)特征的提取網(wǎng)頁正文的方法,包括:
獲取待提取網(wǎng)頁的HTML源代碼;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國海洋大學(xué);青島海洋科學(xué)與技術(shù)國家實(shí)驗(yàn)室發(fā)展中心,未經(jīng)中國海洋大學(xué);青島海洋科學(xué)與技術(shù)國家實(shí)驗(yàn)室發(fā)展中心許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910947241.X/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 節(jié)點(diǎn)查詢方法、節(jié)點(diǎn)、移動通訊系統(tǒng)和計算機(jī)程序產(chǎn)品
- 一種根據(jù)節(jié)點(diǎn)集合構(gòu)造節(jié)點(diǎn)關(guān)系樹的方法、裝置及系統(tǒng)
- 一種DHT網(wǎng)絡(luò)負(fù)載均衡裝置及虛節(jié)點(diǎn)劃分的方法
- 一種無線傳感網(wǎng)地理位置路由空洞處理方法
- 節(jié)點(diǎn)鎖定部件、節(jié)點(diǎn)滑軌、節(jié)點(diǎn)和機(jī)箱
- 一種待推薦節(jié)點(diǎn)線路的確定方法及裝置
- 流控方法、目標(biāo)節(jié)點(diǎn)、節(jié)點(diǎn)及施主節(jié)點(diǎn)
- 節(jié)點(diǎn)布局確定方法以及裝置
- 一種具有分布式柔度的全柔順微位移放大機(jī)構(gòu)
- 節(jié)點(diǎn)掛載方法、裝置、網(wǎng)絡(luò)節(jié)點(diǎn)及存儲介質(zhì)





