[發(fā)明專利]一種基于主題的Web頁面清洗方法有效
| 申請?zhí)枺?/td> | 201310378986.1 | 申請日: | 2013-08-27 |
| 公開(公告)號: | CN103440315A | 公開(公告)日: | 2013-12-11 |
| 發(fā)明(設(shè)計)人: | 沈琦;宋清明;張猛;湯艷 | 申請(專利權(quán))人: | 北京工業(yè)大學(xué) |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京思海天達(dá)知識產(chǎn)權(quán)代理有限公司 11203 | 代理人: | 張慧 |
| 地址: | 100124 *** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 主題 web 頁面 清洗 方法 | ||
1.一種基于主題的Web頁面清洗方法,其特征在于,直接在頁面中抽取有用信息,針對Web頁面標(biāo)簽的復(fù)雜多樣性和局部固定性,采用正則表達(dá)式直接匹配和抽取需要的標(biāo)簽,保留有用信息并自動剔除掉無用信息;包括以下步驟:
步驟一,確定主題領(lǐng)域:人工采集和選取多個樣本頁面進(jìn)行分析,提取出關(guān)鍵詞,由關(guān)鍵詞確定頁面內(nèi)容的主題范圍,最終確定主題領(lǐng)域;
步驟二,采集樣本頁面,并對樣本頁面的網(wǎng)頁結(jié)構(gòu)進(jìn)行分析,確定頁面元素樹形結(jié)構(gòu);
步驟三,確定包含即將抽取的主題內(nèi)容的抽取內(nèi)容標(biāo)簽邊界<ul>;
步驟四,根據(jù)標(biāo)簽邊界定義正則表達(dá)式匹配規(guī)則,利用多個抽取規(guī)則組成抽取規(guī)則模板;
步驟五,對待清洗頁面進(jìn)行清洗預(yù)處理,剔除容易分辨的“噪音”內(nèi)容;
步驟六,利用已生成的抽取規(guī)則模板進(jìn)行頁面清洗,得到清洗后的頁面。
2.根據(jù)權(quán)利要求1所述的一種基于主題的Web頁面清洗方法,其特征在于,步驟二采集樣本頁面不需要使用傳統(tǒng)的頁面清洗方法,一步步分析清除掉不需要的內(nèi)容塊直至保留需要的內(nèi)容塊,而只需要把<dl>與</dl>之間的內(nèi)容直接匹配出來即可,這樣同樣達(dá)到保留所需信息,過濾“噪聲”信息的頁面清洗目的。
3.根據(jù)權(quán)利要求1所述的一種基于主題的Web頁面清洗方法,其特征在于,步驟四定義正則表達(dá)式匹配規(guī)則分為兩步進(jìn)行,每一步都需要定義一個Pattern對象:
(a)匹配外層<ul>標(biāo)簽;
(b)針對(a)的匹配結(jié)果匹配內(nèi)層的<a>標(biāo)簽并抽取其內(nèi)容;
第一個Pattern對象構(gòu)造的正則表達(dá)式抽取規(guī)則如下:
Pattern?pattern1=Pattern.compile(“<ul([^>]*)>(.*)?</ul>”,Pattern.DOTALL|Pattern.MULTILINE)
上面的Pattern可以把整個<ul>標(biāo)簽從頁面中匹配出來,其中“<ul”表示該匹配標(biāo)簽以此開頭;“([^>]*)”表示可以匹配除“>”以外所有的字符,可以出現(xiàn)任意多次,并且對其進(jìn)行分組,實際代表ul標(biāo)簽的屬性;“(.*)?”表示ul標(biāo)簽體的內(nèi)容,就是需要采集的信息塊;“</ul>”是ul標(biāo)簽的結(jié)束標(biāo)志;后面的“Pattern.DOTALL|Pattern.MULTILINE”是compile方法的可選參數(shù),表示此正則表達(dá)式可以進(jìn)行多行匹配,并且對字母大小寫不敏感;
第二個Pattern對象構(gòu)造的正則表達(dá)式抽取規(guī)則如下:
Pattern?pattern1=Pattern.compile(“<a?href=//“([^//“]*)//”(.*)?>(.*)?</a>,Pattern.DOTALL|Pattern.MULTILINE)
上面的Pattern可以匹配出<ul>里的<a>標(biāo)簽,“<a?href=”表示匹配標(biāo)簽以此開頭;“//“([^//“]*)//””表示href屬性的值,也就是超鏈接的地址;“(.*)?>”表示<a>標(biāo)簽的其它屬性;“(.*)?</a>”表示<a>標(biāo)簽的內(nèi)容以及結(jié)束標(biāo)志;“Pattern.DOTALL|Pattern.MULTILINE”是compile方法的可選參數(shù),表示此正則表達(dá)式可以進(jìn)行多行匹配,并且對字母大小寫不敏感。
4.根據(jù)權(quán)利要求1所述的一種基于主題的Web頁面清洗方法,其特征在于,步驟五對待清洗頁面進(jìn)行清洗預(yù)處理的方法如下:
(1)規(guī)定“噪音”內(nèi)容范疇;
一般旅游信息數(shù)據(jù)都存在于頁面的正文段落、列表和表格中,同時考慮其它必要信息的提取,最后得出頁面匹配需要抽取的常見標(biāo)簽大致有如下幾種:<Meta>、<a>、<p>、<dl>、<ul>、<table>;清洗后的頁面必須符合以下規(guī)范:
(a)標(biāo)簽的封閉符“<”和“>”,只能出現(xiàn)在包含網(wǎng)頁標(biāo)簽的地方,如有其它用途,必須使用它們的轉(zhuǎn)義字符“<”和“>”代替;
(b)標(biāo)簽的屬性值如果存在,則必須把它們放在成對的單引號之間;
(c)標(biāo)簽的嵌套順序必須是正確的;
(d)網(wǎng)頁中的單標(biāo)記節(jié)點,末尾都必須加標(biāo)簽閉合標(biāo)志“<.../>”;
(e)如果不是單標(biāo)記節(jié)點,那么標(biāo)簽必須由起始標(biāo)簽和結(jié)束標(biāo)簽組成;“<...>”和“</...>”;
(2)剔除屬于“噪音”內(nèi)容的頁面標(biāo)簽及其內(nèi)容;
將“噪音”標(biāo)簽做為標(biāo)簽邊界生成匹配抽取規(guī)則進(jìn)行清洗。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京工業(yè)大學(xué),未經(jīng)北京工業(yè)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310378986.1/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 提供共享Web模塊的系統(tǒng)和方法
- 管理環(huán)球網(wǎng)網(wǎng)頁中的環(huán)球網(wǎng)媒體的系統(tǒng)及其實現(xiàn)方法
- 一種WEB業(yè)務(wù)實現(xiàn)系統(tǒng)、裝置及方法
- 高速緩存廣播信息的方法和裝置
- 基于QoS指標(biāo)和Web服務(wù)輸出參數(shù)的Web服務(wù)組合方法和裝置
- Web托管審查方法、裝置及Web托管系統(tǒng)
- 用于信息處理和Web瀏覽歷史導(dǎo)航的方法和設(shè)備及電子裝置
- 用于將web站點轉(zhuǎn)換為目標(biāo)web app站點的方法和裝置
- 用于防護(hù)WEB漏洞的方法和設(shè)備
- 一種Web攻擊報告生成方法、裝置、設(shè)備及計算機(jī)介質(zhì)





