[發(fā)明專利]一種從單記錄網(wǎng)頁中抽取規(guī)律噪音的方法有效
| 申請?zhí)枺?/td> | 201210592795.0 | 申請日: | 2012-12-31 |
| 公開(公告)號: | CN103064966A | 公開(公告)日: | 2013-04-24 |
| 發(fā)明(設計)人: | 程學旗;李海燕;郭巖;萬圣賢;郭少華;劉悅;余智華 | 申請(專利權(quán))人: | 中國科學院計算技術研究所 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京泛華偉業(yè)知識產(chǎn)權(quán)代理有限公司 11280 | 代理人: | 王勇 |
| 地址: | 100190 北*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 記錄 網(wǎng)頁 抽取 規(guī)律 噪音 方法 | ||
技術領域
本發(fā)明涉及網(wǎng)絡信息檢索領域,以及更具體地,涉及用于從單記錄網(wǎng)頁(即用一條數(shù)據(jù)記錄單一風格的網(wǎng)頁,該數(shù)據(jù)記錄是指網(wǎng)頁的主體部分的區(qū)域)中分別抽取出正文前、正文中和正文后規(guī)律噪音的方法。
背景技術
在信息化時代,獲得信息的途徑越來越多。互聯(lián)網(wǎng)作為信息的載體,在傳播效率和信息容量方面都有無可替代的地位。目前,互聯(lián)網(wǎng)已經(jīng)成為人們獲取各種知識、信息的重要來源。然而,隨著Web技術的飛速發(fā)展,互聯(lián)網(wǎng)上的海量數(shù)據(jù)信息每天以級數(shù)增長,而且信息的內(nèi)容包羅萬象,形式五花八門。網(wǎng)頁噪音在網(wǎng)頁的內(nèi)容中也占據(jù)了一定的比例。對于研究人員和應用人員來講,在網(wǎng)頁數(shù)據(jù)的處理中有些噪音內(nèi)容不是必需的,甚至有些噪音內(nèi)容會嚴重影響部分研究和應用的效果,而且隨著噪音的形式也變得多種多樣,用戶想要從互聯(lián)網(wǎng)上獲得所需要的信息也變得越來越困難。因此,去掉網(wǎng)頁上的噪音已經(jīng)成為進一步處理網(wǎng)頁數(shù)據(jù)的重要的預處理步驟。如何更好地消除網(wǎng)頁噪音,尋找有意義的信息,使得網(wǎng)頁去噪技術成為網(wǎng)絡信息檢索特有的一個研究領域。而且隨著許多研究如信息檢索、文本分類、搜索引擎等技術應用到Web上,去除網(wǎng)頁上的噪音也變得尤其重要。
網(wǎng)頁上的噪音內(nèi)容根據(jù)噪音內(nèi)容的粒度大小,可以分為全局噪音和局部噪音。全局噪音指網(wǎng)頁上粒度較大的噪音,通常是內(nèi)容重復的網(wǎng)頁(如鏡像網(wǎng)站、復制文章);局部噪音是指網(wǎng)頁中與應用目的或者主題不相關的內(nèi)容,一般是跟網(wǎng)頁本身的模板相關,例如網(wǎng)頁的廣告、導航條、網(wǎng)站聲明、相關文章的超鏈接、版權(quán)信息、噪音鏈接等等。在網(wǎng)絡信息檢索領域里的預處理環(huán)節(jié)需要把導航欄和相關鏈接等部分識別去除,以便提高檢索的質(zhì)量;網(wǎng)頁信息挖掘中也需要事先將噪音去掉以提高挖掘的質(zhì)量。本發(fā)明針對局部噪音提供抽取該局部噪音的方法,下文中沒有具體限定的噪音,一般均指局部噪音。
近幾年來,對于去除局部噪音研究學者作了大量的工作。去噪效果比較好的方法是在去噪過程中對于不同的網(wǎng)頁采用不同模型的多模型去噪。由于多數(shù)網(wǎng)站為了方便維護等原因,通過事先定義好的模板自動生成網(wǎng)頁,使得網(wǎng)頁中除了主題(如正文)內(nèi)容外,其余部分基本都相同。一般來講,不同網(wǎng)站的版塊采用不同的模板,如圖1A和1B示出了兩種網(wǎng)頁模板。多模型去噪主要是針對不同網(wǎng)站的版塊進行模板檢測,由于網(wǎng)頁的導航條、廣告、網(wǎng)站聲明、版權(quán)說明等一般都在網(wǎng)站的模板中,因此去掉了模板,相當于去掉了一部分的局部噪音。其一般處理方法是是先檢測出整個網(wǎng)站的內(nèi)容或結(jié)構(gòu)的模板,然后當這個網(wǎng)站的一個網(wǎng)頁需要處理時,就刪除這個網(wǎng)頁的模板內(nèi)容,剩下的就是去噪之后的內(nèi)容。
比較著名的多模型去噪方法如SST(Site?Style?Tree)。SST是將網(wǎng)頁的HTML?DOM(Document?Object?Model)樹(HTML?DOM樹是把HTML文檔呈現(xiàn)為帶有元素、屬性和文本的樹結(jié)構(gòu))合并,之后進行噪音的判斷。噪音的判斷是基于兩個假設:
(1)一個節(jié)點的展示風格越多,它的重要性越高;
(2)一個節(jié)點的內(nèi)容分支越多,它的重要性越高。
最終一個元素節(jié)點重要性由風格重要性和內(nèi)容重要性兩部分組成,值越小說明該節(jié)點越有可能是噪音。SST樹的執(zhí)行大致過程如下:
(1)首先對同一網(wǎng)站的N棵DOM樹進行對齊合并,合并時記錄每個節(jié)點結(jié)構(gòu)和內(nèi)容不同的分支子樹,SST就為不同的分支形成不同風格的子節(jié)點,且為每個節(jié)點設置一個計數(shù)器,用來表明這N棵DOM樹有同樣的風格和內(nèi)容的這種節(jié)點的網(wǎng)頁數(shù)目。例如,將圖2A所示的Tree1(某一網(wǎng)頁的DOM樹)和圖2B所示的Tree2進行SST合并得到結(jié)果圖2C,圖2C中的數(shù)字代表該節(jié)點出現(xiàn)的次數(shù)。
(2)計算每個節(jié)點的風格重要性和內(nèi)容重要性權(quán)重,根據(jù)權(quán)重的大小來判斷該節(jié)點是否是噪音節(jié)點。
SST去噪方法具有較高的準確性,但是也存在一些缺陷:
(1)隨著網(wǎng)頁技術的發(fā)展,即使是同一網(wǎng)站,不同版塊的DOM樹結(jié)構(gòu)差異性也越來越大,SST樹會造成建樹過程中分支節(jié)點過多,在結(jié)構(gòu)不同的DOM樹數(shù)量分布不均的情況下會使得SST樹中某個噪音分支出現(xiàn)的頻率過小,造成該類DOM結(jié)構(gòu)的網(wǎng)頁只能抽取出一部分噪音的現(xiàn)象;
(2)即使是根據(jù)DOM結(jié)構(gòu)對網(wǎng)頁進行了分類,將算法應用在結(jié)構(gòu)相似的DOM樹中,如果某一層節(jié)點(例如有10個節(jié)點)只有一個節(jié)點不同,SST方法就要為不同的分支建立不同的子節(jié)點,會造成空間的大量浪費,建樹的效率也大大降低;
(3)SST方法在為不同的分支形成不同風格的子節(jié)點時,容易造成分支粒度過大,使得產(chǎn)生部分小噪音漏抽取的情況;
該專利技術資料僅供研究查看技術是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國科學院計算技術研究所,未經(jīng)中國科學院計算技術研究所許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210592795.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





