日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發(fā)明專利]一種基于正文節(jié)點(diǎn)特征的提取網(wǎng)頁正文的方法和系統(tǒng)在審

專利信息
申請?zhí)枺?/td> 201910947241.X 申請日: 2019-09-30
公開(公告)號: CN110851679A 公開(公告)日: 2020-02-28
發(fā)明(設(shè)計)人: 楊永全;翟世平;魏志強(qiáng) 申請(專利權(quán))人: 中國海洋大學(xué);青島海洋科學(xué)與技術(shù)國家實(shí)驗(yàn)室發(fā)展中心
主分類號: G06F16/951 分類號: G06F16/951;G06F16/9535;G06F40/14
代理公司: 北京工信聯(lián)合知識產(chǎn)權(quán)代理有限公司 11266 代理人: 姜麗樓
地址: 266100 山*** 國省代碼: 山東;37
權(quán)利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關(guān)鍵詞: 一種 基于 正文 節(jié)點(diǎn) 特征 提取 網(wǎng)頁 方法 系統(tǒng)
【說明書】:

發(fā)明公開了一種基于正文節(jié)點(diǎn)特征的提取網(wǎng)頁正文的方法和系統(tǒng),屬于互聯(lián)網(wǎng)技術(shù)領(lǐng)域。本發(fā)明方法包括:獲取待提取網(wǎng)頁的HTML源代碼;對HTML源代碼進(jìn)行過濾并提取出HTML源代碼HTML DOM樹中元素關(guān)鍵節(jié)點(diǎn),針對元素關(guān)鍵節(jié)點(diǎn)構(gòu)建列表;獲取每個元素關(guān)鍵節(jié)點(diǎn)的節(jié)點(diǎn)值為正文節(jié)點(diǎn)屬性值的概率并進(jìn)行排序;按正文節(jié)點(diǎn)屬性值的概率的順序?qū)υ仃P(guān)鍵節(jié)點(diǎn)進(jìn)行正文元素提取,確定待判斷網(wǎng)頁正文為網(wǎng)頁正文。本發(fā)明在網(wǎng)頁正文提取過程中,考慮到HTML網(wǎng)頁DOM樹元素的屬性節(jié)點(diǎn)對標(biāo)記正文節(jié)點(diǎn)的重要作用,將網(wǎng)頁節(jié)點(diǎn)關(guān)鍵屬性值id和class與正文節(jié)點(diǎn)屬性值特征對比,準(zhǔn)確找出正文節(jié)點(diǎn)值,結(jié)合HTML解析器技術(shù)準(zhǔn)確抽取正文。

技術(shù)領(lǐng)域

本發(fā)明涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,并且更具體地,涉及一種基于正文節(jié)點(diǎn)特征的提取網(wǎng)頁正文的方法和系統(tǒng)。

背景技術(shù)

在WEB海量信息處理的背景下,WEB智能信息檢索、文檔自動摘要、輿情分析等等需求應(yīng)運(yùn)而生。這些需求都是對互聯(lián)網(wǎng)中海量的WEB頁面的采集及分析的過程。通常情況下,這類技術(shù)都是通過網(wǎng)絡(luò)爬蟲來從網(wǎng)絡(luò)上抓取原始網(wǎng)頁的信息,而原始信息中除了用戶所感興趣的正文信息之外,還通常會包含有各種網(wǎng)絡(luò)噪音數(shù)據(jù),比如廣告鏈接、標(biāo)簽信息、導(dǎo)航鏈接、評論等等。這些噪音數(shù)據(jù)的存在,極大地影響了網(wǎng)絡(luò)檢索的效率,也降低了人們的閱讀效率。正確、高效地在半結(jié)構(gòu)化、異構(gòu)性強(qiáng)的HTML源文件中提取到文章正文,在基于互聯(lián)網(wǎng)的數(shù)據(jù)挖掘、信息檢索等領(lǐng)域具有著重要的意義。

隨著互聯(lián)網(wǎng)的迅猛發(fā)展,WEB所承載的數(shù)據(jù)與日俱增,其信息冗余、形式多樣、處理困難等問題也越來越突出,因此,WEB信息提取應(yīng)運(yùn)而生。又由于WEB頁面中包含了大量的與主題無關(guān)的信息,影響了用戶從中快速定位并獲取正文內(nèi)容。所以,對頁面正文信息的提取顯得尤為重要,其不但可以節(jié)省用戶大量的時間和精力,而且提取結(jié)果也可以用于數(shù)據(jù)挖掘等各個方面。WEB信息提取主要針對無結(jié)構(gòu)或者半結(jié)構(gòu)化的WEB頁面,且主流大多基于HTML結(jié)構(gòu)。在已有的相關(guān)研究中,研究者在關(guān)注HTML元素時忽略了屬性標(biāo)簽的語義信息對其包含的內(nèi)容的影響,導(dǎo)致無法正確找到正文節(jié)點(diǎn),抽取正文內(nèi)容比較困難、抽取效率低。

網(wǎng)頁正文提取技術(shù):

目前在網(wǎng)頁正文提取領(lǐng)域,由于HTML頁面可以解析成DOM樹,頁面中所有的標(biāo)簽和文本信息等都可以被轉(zhuǎn)換為樹中的一個節(jié)點(diǎn),對數(shù)據(jù)的提取可以轉(zhuǎn)化成對一棵樹進(jìn)行操作。由于具有結(jié)構(gòu)上的優(yōu)勢,因此,基于HTML結(jié)構(gòu)的信息提取逐漸成為研究的主流,方法效果比較好的是基于統(tǒng)計學(xué)習(xí)和文本特征的網(wǎng)頁正文提取方法。該方法對單正文和多正文的網(wǎng)頁

提取效果都較好,該方法首先將網(wǎng)頁構(gòu)造成一顆標(biāo)簽樹,然后通過統(tǒng)計學(xué)習(xí)獲取一條從根節(jié)點(diǎn)一直到葉節(jié)點(diǎn)(必須包含正文的葉節(jié)點(diǎn))的路徑,自動學(xué)習(xí)這條路徑上的正文特征,用于找出擁有同樣正文特征的路徑,找出正文區(qū)域和子樹主干,再然后,根據(jù)所學(xué)到的正文特征,找出正文區(qū)域中的類似子樹主干,最后,通過對獲取的正文區(qū)域中的內(nèi)容進(jìn)行剪枝,得到頁面的主要信息。該方法雖然能夠有效的提取出正文信息,但需要事先進(jìn)行路徑標(biāo)記,且學(xué)習(xí)過程較長,并且對博客類的網(wǎng)頁不適用。

字符串相似性度量技術(shù):

字符串相似度度量是尋找兩個字符串的公共子串,利用公共子串的長度根據(jù)相應(yīng)的公式來衡量兩個字符串的相似程度。字符串相似度在很多領(lǐng)域都有廣泛的應(yīng)用。如在抄襲檢測系統(tǒng)、自動評分系統(tǒng)、防代碼剽竊系統(tǒng)、數(shù)據(jù)清洗、網(wǎng)頁搜索和DNA序列匹配等領(lǐng)域都有應(yīng)用。目前,字符串相似度度量算法有很多,如編輯距離算法,最長公共子串算法、Heckel算法、貪心字符串匹配算法及RKR-GST算法等。這些算法因?yàn)閷?shí)現(xiàn)的原理不同,得到的字符串相似度也會有些差別,進(jìn)而應(yīng)用的領(lǐng)域也會有所不同。

發(fā)明內(nèi)容

針對上述問題,本發(fā)明提出了一種基于正文節(jié)點(diǎn)特征的提取網(wǎng)頁正文的方法,包括:

獲取待提取網(wǎng)頁的HTML源代碼;

下載完整專利技術(shù)內(nèi)容需要扣除積分,VIP會員可以免費(fèi)下載。

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國海洋大學(xué);青島海洋科學(xué)與技術(shù)國家實(shí)驗(yàn)室發(fā)展中心,未經(jīng)中國海洋大學(xué);青島海洋科學(xué)與技術(shù)國家實(shí)驗(yàn)室發(fā)展中心許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/201910947241.X/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

×

專利文獻(xiàn)下載

說明:

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書;

2、支持發(fā)明專利 、實(shí)用新型專利、外觀設(shè)計專利(升級中);

3、專利數(shù)據(jù)每周兩次同步更新,支持Adobe PDF格式;

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖流程工藝圖技術(shù)構(gòu)造圖

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進(jìn)行下載,點(diǎn)擊【登陸】 【注冊】

關(guān)于我們 尋求報道 投稿須知 廣告合作 版權(quán)聲明 網(wǎng)站地圖 友情鏈接 企業(yè)標(biāo)識 聯(lián)系我們

鉆瓜專利網(wǎng)在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 欧美三区视频| 久久久久久中文字幕| 精品欧美一区二区精品久久小说| 福利视频亚洲一区| 欧美在线免费观看一区| 国产精品视频久久久久久久| 国产精品久久91| 午夜av男人的天堂| 国产精品久久久麻豆| 性国产videofree极品| 一区二区在线不卡| 国产一区精品在线观看| 国产一区中文字幕在线观看| 欧美一区二区三区艳史| 国产精品高潮呻| 68精品国产免费久久久久久婷婷| 曰韩av在线| 国产精品久久久久久久久久久新郎| 偷拍精品一区二区三区| 欧美激情国产一区| 国产精品日韩电影| 午夜影院一级| 国产69精品久久99不卡免费版| 99爱精品在线| 国产精品日韩一区二区| 国产电影一区二区三区下载| 欧美视屏一区二区| 久久99国产视频| 久久精品男人的天堂| 激情久久一区二区| 91精品丝袜国产高跟在线| 91视频一区二区三区| 国产天堂一区二区三区| 99国产超薄丝袜足j在线观看| 日韩av免费网站| 欧美国产精品久久| 日韩精品一区二区三区四区在线观看| 在线视频国产一区二区| 99爱精品在线| 综合久久一区二区三区| 久久久久亚洲| 狠狠色狠狠色综合日日2019| 欧美乱战大交xxxxx| 日韩美一区二区三区| 国产主播啪啪| 欧美精品中文字幕亚洲专区| 国产精品区一区二区三| 国产视频一区二区不卡| 欧美精选一区二区三区| 中文字幕欧美另类精品亚洲| 久久99中文字幕| 996久久国产精品线观看| 韩国视频一区二区| xxxx18日本护士高清hd| 国产精品亚州| 欧美精品一区二区三区在线四季| 国产一区二区三区影院| 婷婷午夜影院| 高清国产一区二区三区| 午夜影院一区| 欧美日韩国产在线一区二区三区| 国产亚洲精品久久久久秋霞| 国产日产高清欧美一区二区三区| 精品欧美一区二区精品久久小说| 色综合久久88| 999久久久国产精品| 99精品偷拍视频一区二区三区| 少妇又紧又色又爽又刺激视频网站| 欧美日韩国产色综合视频| 日韩av在线影院| 欧美精品在线一区二区| 国产精品尤物麻豆一区二区三区| 91精彩刺激对白露脸偷拍 | 国产在线不卡一| 欧美国产亚洲精品| 国产无遮挡又黄又爽免费网站| 色噜噜狠狠狠狠色综合久| 久久er精品视频| 久久久精品免费看| 亚洲精品久久久久www| 午夜剧场一级片| 国产日韩欧美在线影视| 国产欧美久久一区二区三区| 夜夜躁人人爽天天天天大学生 | 日韩一级片免费视频| 亚洲一级中文字幕| 精品国产一区二区三区在线| 国内自拍偷拍一区| 久久96国产精品久久99软件| 国产三级一区二区| 亚洲欧洲一二三区| 久久精品国产综合| 一区二区精品在线| 精品国产一区在线| 国产一区二区三级| 亚洲欧美国产日韩色伦| 日韩欧美高清一区二区| 中文字幕制服丝袜一区二区三区 | www.日本一区| 欧美一区二区三区性| 欧美精品一区二区三区久久久竹菊| 精品国产乱码久久久久久久久 | 国产精品美女一区二区视频| 国产另类一区| 欧美日韩一级二级三级| 国产在线一卡| 最新日韩一区| 在线观看国产91| 日本99精品| 国产不卡一二三区| 挺进警察美妇后菊| 亚洲欧美国产精品久久| 欧美在线视频一区二区三区| 国内久久精品视频| 国产精品自拍在线观看| 欧美乱妇在线观看| 国内少妇自拍视频一区| 色婷婷精品久久二区二区我来| 亚洲日韩aⅴ在线视频| 日韩av在线免费电影| 日本精品99| 黄色香港三级三级三级| 国产一卡在线| 99精品国产99久久久久久97| 亚洲精品久久久久玩吗| 69xx国产| 国产精品九九九九九| 97人人澡人人爽人人模亚洲| 中文字幕av一区二区三区高| 97久久精品人人澡人人爽| 亚洲精品国产久| 国产精品不卡在线| 国产在线拍揄自揄拍| 国产超碰人人模人人爽人人添| 超碰97国产精品人人cao| 久久国产麻豆| 欧美日韩国产精品一区二区| 日本一区中文字幕| 精品国产一区二区三区久久久久久| 97久久精品一区二区三区观看| 国产日韩精品一区二区| 人人澡超碰碰97碰碰碰| 中文丰满岳乱妇在线观看| 国产精品一级片在线观看| 久久精品国产亚洲一区二区| 国产69精品久久99不卡解锁版| 亚洲日韩aⅴ在线视频| 欧美一区二区性放荡片| 好吊妞国产欧美日韩软件大全| 国产一区二区精品免费| 中文天堂在线一区| 丰满岳妇伦4在线观看| 欧美在线一级va免费观看| 伊人av综合网| 亚洲乱码一区二区三区三上悠亚| 国产精品日产欧美久久久久| 91婷婷精品国产综合久久| 国产精品二区一区二区aⅴ| 亚洲一区二区福利视频| 午夜毛片影院| 国产精品一区二区在线观看| 国产一区午夜| 国产精品99一区二区三区| 欧美一区二区三区久久| 国产一区二区影院| 91精品国产综合久久婷婷香| 国产日韩欧美三级| 久久精品视频中文字幕| 久久精品综合视频| 国产一区二区三区四| 国产日韩一区二区在线| 亚洲精品国产精品国自产网站按摩| 久久一二区| 丰满少妇在线播放bd日韩电影| 久久精品一| 夜夜嗨av一区二区三区中文字幕 | 国内精品99| 91avpro| 欧美黑人巨大久久久精品一区| 一区二区三区四区中文字幕| 精品久久二区| 91精品视频免费在线观看| 视频一区二区三区欧美| 国产精品视频一区二区在线观看 | 少妇中文字幕乱码亚洲影视| 免费久久一级欧美特大黄| 日本二区在线观看| 91精品第一页| 日日夜夜精品免费看 | 国产精品18久久久久白浆| 热99re久久免费视精品频软件| 国产一区二区三区的电影| 亚洲精品www久久久| 99久精品视频| 欧美日韩不卡视频| 亚洲欧洲另类精品久久综合| 在线观看黄色91| 日本一二三区电影| 国产精品高潮呻吟三区四区| 国产精品一区二区在线看| 国产精品1234区| 91久久免费| 亚洲精品久久久久999中文字幕| 欧美日韩亚洲三区| 亚洲精品国产久| 欧美一区二区三区激情| 性old老妇做受| 一二三区欧美| 久久影视一区二区| 亚洲无人区码一码二码三码| 欧美精品一区二区三区视频| 亚洲欧美另类久久久精品2019| 国产欧美一区二区三区在线播放| 国产欧美久久一区二区三区| 国产精品伦一区二区三区视频| 精品免费久久久久久久苍| yy6080影院旧里番乳色吐息| 99久久精品国产国产毛片小说 | 国产又黄又硬又湿又黄| 日韩精品中文字幕一区二区三区 | 久久午夜鲁丝片| 国产视频一区二区三区四区| 日本美女视频一区二区三区| 国产一卡在线| 99精品一级欧美片免费播放| 国产精品久久久久久一区二区三区| 日韩精品午夜视频| 中文字幕亚洲欧美日韩在线不卡| 国内视频一区二区三区| 国产一区二区麻豆| 国产精品久久亚洲7777| 91久久国产视频| 精品少妇一区二区三区 | 午夜爽爽爽男女免费观看| 国产女人好紧好爽| 国产精品18久久久久白浆| 国产午夜精品av一区二区麻豆| 亚洲欧美中日精品高清一区二区| 久久精品综合视频| 欧美精品九九| 香蕉视频在线观看一区二区| 精品久久小视频| 国产亚洲精品久久yy50| 亚洲精品一区二区另类图片| 欧美午夜羞羞羞免费视频app| 久久激情影院|