日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發(fā)明專利]一種從單記錄網(wǎng)頁中抽取規(guī)律噪音的方法有效

專利信息
申請?zhí)枺?/td> 201210592795.0 申請日: 2012-12-31
公開(公告)號: CN103064966A 公開(公告)日: 2013-04-24
發(fā)明(設計)人: 程學旗;李海燕;郭巖;萬圣賢;郭少華;劉悅;余智華 申請(專利權(quán))人: 中國科學院計算技術研究所
主分類號: G06F17/30 分類號: G06F17/30
代理公司: 北京泛華偉業(yè)知識產(chǎn)權(quán)代理有限公司 11280 代理人: 王勇
地址: 100190 北*** 國省代碼: 北京;11
權(quán)利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關鍵詞: 一種 記錄 網(wǎng)頁 抽取 規(guī)律 噪音 方法
【說明書】:

技術領域

發(fā)明涉及網(wǎng)絡信息檢索領域,以及更具體地,涉及用于從單記錄網(wǎng)頁(即用一條數(shù)據(jù)記錄單一風格的網(wǎng)頁,該數(shù)據(jù)記錄是指網(wǎng)頁的主體部分的區(qū)域)中分別抽取出正文前、正文中和正文后規(guī)律噪音的方法。

背景技術

在信息化時代,獲得信息的途徑越來越多。互聯(lián)網(wǎng)作為信息的載體,在傳播效率和信息容量方面都有無可替代的地位。目前,互聯(lián)網(wǎng)已經(jīng)成為人們獲取各種知識、信息的重要來源。然而,隨著Web技術的飛速發(fā)展,互聯(lián)網(wǎng)上的海量數(shù)據(jù)信息每天以級數(shù)增長,而且信息的內(nèi)容包羅萬象,形式五花八門。網(wǎng)頁噪音在網(wǎng)頁的內(nèi)容中也占據(jù)了一定的比例。對于研究人員和應用人員來講,在網(wǎng)頁數(shù)據(jù)的處理中有些噪音內(nèi)容不是必需的,甚至有些噪音內(nèi)容會嚴重影響部分研究和應用的效果,而且隨著噪音的形式也變得多種多樣,用戶想要從互聯(lián)網(wǎng)上獲得所需要的信息也變得越來越困難。因此,去掉網(wǎng)頁上的噪音已經(jīng)成為進一步處理網(wǎng)頁數(shù)據(jù)的重要的預處理步驟。如何更好地消除網(wǎng)頁噪音,尋找有意義的信息,使得網(wǎng)頁去噪技術成為網(wǎng)絡信息檢索特有的一個研究領域。而且隨著許多研究如信息檢索、文本分類、搜索引擎等技術應用到Web上,去除網(wǎng)頁上的噪音也變得尤其重要。

網(wǎng)頁上的噪音內(nèi)容根據(jù)噪音內(nèi)容的粒度大小,可以分為全局噪音和局部噪音。全局噪音指網(wǎng)頁上粒度較大的噪音,通常是內(nèi)容重復的網(wǎng)頁(如鏡像網(wǎng)站、復制文章);局部噪音是指網(wǎng)頁中與應用目的或者主題不相關的內(nèi)容,一般是跟網(wǎng)頁本身的模板相關,例如網(wǎng)頁的廣告、導航條、網(wǎng)站聲明、相關文章的超鏈接、版權(quán)信息、噪音鏈接等等。在網(wǎng)絡信息檢索領域里的預處理環(huán)節(jié)需要把導航欄和相關鏈接等部分識別去除,以便提高檢索的質(zhì)量;網(wǎng)頁信息挖掘中也需要事先將噪音去掉以提高挖掘的質(zhì)量。本發(fā)明針對局部噪音提供抽取該局部噪音的方法,下文中沒有具體限定的噪音,一般均指局部噪音。

近幾年來,對于去除局部噪音研究學者作了大量的工作。去噪效果比較好的方法是在去噪過程中對于不同的網(wǎng)頁采用不同模型的多模型去噪。由于多數(shù)網(wǎng)站為了方便維護等原因,通過事先定義好的模板自動生成網(wǎng)頁,使得網(wǎng)頁中除了主題(如正文)內(nèi)容外,其余部分基本都相同。一般來講,不同網(wǎng)站的版塊采用不同的模板,如圖1A和1B示出了兩種網(wǎng)頁模板。多模型去噪主要是針對不同網(wǎng)站的版塊進行模板檢測,由于網(wǎng)頁的導航條、廣告、網(wǎng)站聲明、版權(quán)說明等一般都在網(wǎng)站的模板中,因此去掉了模板,相當于去掉了一部分的局部噪音。其一般處理方法是是先檢測出整個網(wǎng)站的內(nèi)容或結(jié)構(gòu)的模板,然后當這個網(wǎng)站的一個網(wǎng)頁需要處理時,就刪除這個網(wǎng)頁的模板內(nèi)容,剩下的就是去噪之后的內(nèi)容。

比較著名的多模型去噪方法如SST(Site?Style?Tree)。SST是將網(wǎng)頁的HTML?DOM(Document?Object?Model)樹(HTML?DOM樹是把HTML文檔呈現(xiàn)為帶有元素、屬性和文本的樹結(jié)構(gòu))合并,之后進行噪音的判斷。噪音的判斷是基于兩個假設:

(1)一個節(jié)點的展示風格越多,它的重要性越高;

(2)一個節(jié)點的內(nèi)容分支越多,它的重要性越高。

最終一個元素節(jié)點重要性由風格重要性和內(nèi)容重要性兩部分組成,值越小說明該節(jié)點越有可能是噪音。SST樹的執(zhí)行大致過程如下:

(1)首先對同一網(wǎng)站的N棵DOM樹進行對齊合并,合并時記錄每個節(jié)點結(jié)構(gòu)和內(nèi)容不同的分支子樹,SST就為不同的分支形成不同風格的子節(jié)點,且為每個節(jié)點設置一個計數(shù)器,用來表明這N棵DOM樹有同樣的風格和內(nèi)容的這種節(jié)點的網(wǎng)頁數(shù)目。例如,將圖2A所示的Tree1(某一網(wǎng)頁的DOM樹)和圖2B所示的Tree2進行SST合并得到結(jié)果圖2C,圖2C中的數(shù)字代表該節(jié)點出現(xiàn)的次數(shù)。

(2)計算每個節(jié)點的風格重要性和內(nèi)容重要性權(quán)重,根據(jù)權(quán)重的大小來判斷該節(jié)點是否是噪音節(jié)點。

SST去噪方法具有較高的準確性,但是也存在一些缺陷:

(1)隨著網(wǎng)頁技術的發(fā)展,即使是同一網(wǎng)站,不同版塊的DOM樹結(jié)構(gòu)差異性也越來越大,SST樹會造成建樹過程中分支節(jié)點過多,在結(jié)構(gòu)不同的DOM樹數(shù)量分布不均的情況下會使得SST樹中某個噪音分支出現(xiàn)的頻率過小,造成該類DOM結(jié)構(gòu)的網(wǎng)頁只能抽取出一部分噪音的現(xiàn)象;

(2)即使是根據(jù)DOM結(jié)構(gòu)對網(wǎng)頁進行了分類,將算法應用在結(jié)構(gòu)相似的DOM樹中,如果某一層節(jié)點(例如有10個節(jié)點)只有一個節(jié)點不同,SST方法就要為不同的分支建立不同的子節(jié)點,會造成空間的大量浪費,建樹的效率也大大降低;

(3)SST方法在為不同的分支形成不同風格的子節(jié)點時,容易造成分支粒度過大,使得產(chǎn)生部分小噪音漏抽取的情況;

下載完整專利技術內(nèi)容需要扣除積分,VIP會員可以免費下載。

該專利技術資料僅供研究查看技術是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國科學院計算技術研究所,未經(jīng)中國科學院計算技術研究所許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術合作,請聯(lián)系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/201210592795.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

×

專利文獻下載

說明:

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書;

2、支持發(fā)明專利 、實用新型專利、外觀設計專利(升級中);

3、專利數(shù)據(jù)每周兩次同步更新,支持Adobe PDF格式;

4、內(nèi)容包括專利技術的結(jié)構(gòu)示意圖流程工藝圖技術構(gòu)造圖

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進行下載,點擊【登陸】 【注冊】

關于我們 尋求報道 投稿須知 廣告合作 版權(quán)聲明 網(wǎng)站地圖 友情鏈接 企業(yè)標識 聯(lián)系我們

鉆瓜專利網(wǎng)在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 精品国产一级| 美女销魂免费一区二区| 鲁一鲁一鲁一鲁一鲁一av| 国产一区二区午夜| 一区二区久久精品66国产精品| 日本亚洲国产精品| 久久一区二| 国产97在线播放| 婷婷嫩草国产精品一区二区三区| 国产91免费观看| 国产精品久久久久激情影院| 国产精品丝袜综合区另类| 99日本精品| 国产的欧美一区二区三区| 精品综合久久久久| 国产影院一区二区| 91精品久久天干天天天按摩| 国产精品麻豆一区二区| 狠狠色噜噜狠狠狠狠88| 国产在线精品一区| 欧美一区二区三区四区五区六区| 久久不卡精品| 一区二区三区国产精华| 日本一区中文字幕| 在线视频国产一区二区| 特级免费黄色片| 国语对白一区二区| 精品久久不卡| 99国产伦精品一区二区三区| 久久99精| 欧美一区二区三区黄| 久久午夜鲁丝片| 国产日韩欧美精品一区二区| 精品一区二区三区中文字幕| 国产欧美精品va在线观看| 一区二区在线精品| 国产乱xxxxx国语对白| 国产在线不卡一| 国产女人和拘做受在线视频| 黄色91在线观看| 7777久久久国产精品| 国产91一区| 国产精品一区二区在线观看免费| 欧美日韩国产精品一区二区亚洲| 国产午夜一区二区三区| 国产精品视频久久| 国产日韩欧美一区二区在线观看| 99精品区| 国产女性无套免费看网站| 久久久久国产精品视频| 88国产精品欧美一区二区三区三| 国产一区二区三区小说| 亚洲精品少妇一区二区| 日本高清二区| 中文字幕一级二级三级| 国产精品久久久久久久新郎| 日韩欧美一区二区在线视频| 欧美精品一区久久| 91国产一区二区| 国产日产欧美一区二区| 国产乱子伦农村xxxx| 91午夜精品一区二区三区| 久久久久国产精品视频| а√天堂8资源中文在线| 国产精欧美一区二区三区久久久| 538国产精品一区二区免费视频| 国产日韩欧美网站| 强制中出し~大桥未久10在线播放| 99久久久久久国产精品| 精品一区欧美| 91久久精品国产亚洲a∨麻豆| 国产伦精品一区二区三区照片91| 91国产在线看| 99精品一级欧美片免费播放| 精品一区二区在线视频| 国产一区午夜| 国产美女一区二区三区在线观看 | 国产午夜精品一区二区三区视频 | 亚洲美女在线一区| 国产麻豆91视频| 色噜噜狠狠狠狠色综合久| 欧美精品一区二区三区久久久竹菊| 亚洲精品少妇久久久久| 久久乐国产精品| 午夜精品一区二区三区在线播放| 午夜毛片影院| 国产不卡网站| 国产在线不卡一| 午夜看大片| 欧美午夜理伦三级在线观看偷窥| 欧美日韩国产一二三| 国偷自产一区二区三区在线观看| xxxxhd欧美| 久久久久久中文字幕| 国产伦精品一区二区三| 久久久精品二区| 91精品第一页| 国产精品视频二区不卡| 国产日韩欧美亚洲综合| 一本色道久久综合亚洲精品图片| 日韩国产精品久久久久久亚洲| 亚洲国产精品一区二区久久hs| 亚洲精品一区在线| 国产精品对白刺激在线观看| 久久久久国产精品嫩草影院| 欧美777精品久久久久网| 国产一区二区91| 黄色香港三级三级三级| 91精品系列| 国产真裸无庶纶乱视频| 国产一区免费在线观看| 美国三级日本三级久久99| 老太脱裤子让老头玩xxxxx| 99er热精品视频国产| 亚洲在线久久| 国产精品电影一区| 欧美一区二区三区性| 午夜在线看片| 思思久久96热在精品国产| 国产人伦精品一区二区三区| 一区二区在线精品| 国产一二区视频| 在线观看v国产乱人精品一区二区| 99爱精品视频| 国产乱对白刺激视频在线观看| 欧美在线观看视频一区二区三区 | 午夜wwww| 欧美国产三区| 老太脱裤子让老头玩xxxxx | 亚洲欧美日韩精品suv| 欧美系列一区| 午夜激情在线播放| 国产伦精品一区二区三区免费优势 | 免费**毛片| 日本一区二区高清| 亚洲欧美一二三| 精品国产仑片一区二区三区| 国产欧美日韩精品一区二区图片| yy6080影院旧里番乳色吐息| 欧美精品国产一区二区| 国产九九影院| 国产精品天堂| 狠狠色狠狠色很很综合很久久| free×性护士vidos欧美| 国产伦理一区| 制服丝袜亚洲一区| 亚洲一卡二卡在线| 麻豆国产一区二区三区 | 国产一区二区二| 91麻豆国产自产在线观看hd| 欧美一区二区三区四区在线观看| 99久久婷婷国产亚洲终合精品 | 国产精品一级在线| 日韩av中文字幕第一页| 日韩av在线网| 中文文精品字幕一区二区| 亚洲制服丝袜在线| 丰满少妇在线播放bd日韩电影| 国产精品女同一区二区免费站| 91麻豆文化传媒在线观看| 国产精品久久99| 国产精品久久人人做人人爽| 国产女人和拘做受在线视频| 国产精品二区一区| 国产日韩欧美不卡| 日韩精品一区二区不卡| 国产精一区二区| 国产精品天堂| 91精品美女| av午夜电影| 在线视频不卡一区| 欧美日韩一区电影| 毛片免费看看| 女女百合互慰av| 午夜影院h| 国产精品欧美久久| 国产一区二区电影| 国产高清无套内谢免费| 少妇又紧又色又爽又刺激视频网站| 国产一区二区三区网站| 午夜毛片在线看| 精品国产乱码久久久久久虫虫| 91久久香蕉| 欧美一区二区三区激情| 久久久久久国产一区二区三区| 国产大片黄在线观看私人影院 | 欧美一区二区三区久久| 中文字幕在线一区二区三区| 国产精品中文字幕一区二区三区| 欧美性二区| 久久午夜无玛鲁丝片午夜精品| 91亚洲国产在人线播放午夜| 91麻豆精品国产91久久久资源速度 | 日韩不卡毛片| 久久久精品视频在线| 日韩a一级欧美一级在线播放| 国产精品麻豆自拍| 91精品一区在线观看| 制服丝袜视频一区| 2018亚洲巨乳在线观看| 中文字幕在线视频一区二区| 日韩精品久久一区二区三区| 99久久99精品| 午夜爽爽视频| 国产精品香蕉在线的人| 国产91刺激对白在线播放| 好吊妞国产欧美日韩免费观看网站| 日本黄页在线观看| 强制中出し~大桥未久10在线播放| 精品少妇一区二区三区 | 欧美黄色一二三区| 久久精品国产99| 一本一道久久a久久精品综合蜜臀| 午夜特级片| 日韩精品一区在线观看| 国产欧美亚洲一区二区| 国产欧美一区二区三区免费看 | 香蕉久久国产| 国产精品一二三区视频网站| 日韩精品一区二区中文字幕| 国产99久久九九精品免费| 国产精品日韩精品欧美精品| 日韩国产精品久久| 99久久国产综合| 欧美精品中文字幕在线观看| 国产精一区二区三区| 日韩中文字幕在线一区二区| 亚洲国产偷| 午夜大片男女免费观看爽爽爽尤物 | 中文字幕一区二区在线播放| 乱淫免费视频| 国产69精品久久久| 国产精品网站一区| 国产亚洲精品久久久久久网站 | 国产精品99在线播放| 日本高清二区| 精品少妇的一区二区三区四区| 国产精品视频久久久久| 一区二区在线国产| 国产精品1区2区| 国产精品久久久久久久综合| 久久国产精彩视频| 欧美激情图片一区二区| 狠狠插狠狠插| 午夜av网址| 国产乱人乱精一区二视频国产精品 |