[發(fā)明專利]一種基于網(wǎng)頁語義結(jié)構(gòu)的網(wǎng)頁分塊方法有效

申請?zhí)枺?/td>	201811299864.2	申請日：	2018-11-02
公開（公告）號：	CN109492177B	公開（公告）日：	2019-12-17
發(fā)明（設(shè)計）人：	肖碧松;趙芳芳	申請（專利權(quán)）人：	中國搜索信息科技股份有限公司
主分類號：	G06F16/957	分類號：	G06F16/957;G06F16/951
代理公司：	11337 北京市盛峰律師事務(wù)所	代理人：	于國富
地址：	100000 北京市大興***	國省代碼：	北京;11
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	網(wǎng)頁網(wǎng)頁分塊網(wǎng)頁語義物理塊預(yù)處理內(nèi)容抽取輸出結(jié)構(gòu) 網(wǎng)頁編輯網(wǎng)頁識別網(wǎng)頁頁面重新排版精準(zhǔn)度語法樹重要度分塊權(quán)重整合過濾輸出監(jiān)測廣告
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

本發(fā)明提供一種基于網(wǎng)頁語義結(jié)構(gòu)的網(wǎng)頁分塊方法，涉及網(wǎng)頁編輯領(lǐng)域；所述網(wǎng)頁分塊方法包括以下步驟：S1,將獲取到的網(wǎng)頁html源碼進行預(yù)處理，建立DOM語法樹；S2，對DOM樹進行物理塊識別和整合；S3，在物理塊類型基礎(chǔ)上進行網(wǎng)頁識別及監(jiān)測；S4，輸出分塊后的網(wǎng)頁。本發(fā)明提供的網(wǎng)頁分塊方法能更準(zhǔn)確識別網(wǎng)頁頁面類型以及網(wǎng)頁塊的重要度，方便過濾一些廣告塊和權(quán)重較低的塊；方便對原網(wǎng)頁進行重新排版，并輸出結(jié)構(gòu)化數(shù)據(jù)；根據(jù)不同類型網(wǎng)頁切分網(wǎng)頁塊，提升了內(nèi)容抽取的精準(zhǔn)度。

技術(shù)領(lǐng)域

本發(fā)明涉及網(wǎng)頁編輯領(lǐng)域，尤其涉及一種基于網(wǎng)頁語義結(jié)構(gòu)的網(wǎng)頁分塊方法。

背景技術(shù)

為了滿足方便手機用戶瀏覽互聯(lián)網(wǎng)網(wǎng)頁，將www網(wǎng)頁內(nèi)容轉(zhuǎn)化為手機終端方便瀏覽的頁面，我們提出了一種基于網(wǎng)頁語義結(jié)構(gòu)的網(wǎng)頁分塊方法，先把網(wǎng)頁分成多個塊，再跟據(jù)分塊的把最優(yōu)的塊展現(xiàn)給手機終端用戶。目前，該應(yīng)用領(lǐng)域主要的解決方案為基于視覺的Web頁面分塊(Vision-based Page Segmentation，VIPS)。

VIPS利用了諸如字體、顏色、大小等版面特征.它根據(jù)一定的語義關(guān)聯(lián)規(guī)則，將整個網(wǎng)頁表示成一棵HTML DOM樹，然后通過橫豎線條將節(jié)點所對應(yīng)的分塊在網(wǎng)頁中分隔開來，構(gòu)成網(wǎng)頁的標(biāo)準(zhǔn)分塊，其主要技術(shù)特征包括：

1)DOM樹進行頁面語義分塊，計算和保存DOM樹中的所有節(jié)點的視覺信息。

2)從視覺特征對頁面結(jié)構(gòu)進行挖掘，如頁面的視覺提示如背景顏色、字體顏色和大小、邊框、邏輯塊和邏輯塊之間的間距等。

3)提取出所有的合適的頁面塊。

4)檢測頁面塊之間的所有的分割條，包括水平和垂直方向，基于這些分割條切割網(wǎng)頁塊。

但是上述現(xiàn)有技術(shù)由于視覺特征的復(fù)雜性，如何保證視覺特征信息是一大難點；其次，VIPS算法需要計算和保存DOM樹中的所有節(jié)點的視覺信息，這就導(dǎo)致該算法在時間和內(nèi)存上消耗比較大，使得在處理含有大量節(jié)點的網(wǎng)頁時性能不高。

發(fā)明內(nèi)容

本發(fā)明的目的在于提供一種基于網(wǎng)頁語義結(jié)構(gòu)的網(wǎng)頁分塊方法，從而解決現(xiàn)有技術(shù)中存在的前述問題。

為了實現(xiàn)上述目的，本發(fā)明采用的技術(shù)方案如下：

一種基于網(wǎng)頁語義結(jié)構(gòu)的網(wǎng)頁分塊方法，包括以下步驟：

S1,將獲取到的網(wǎng)頁html源碼進行預(yù)處理，建立DOM語法樹；

S2，對DOM樹進行物理塊識別和整合；

S3，在物理塊類型基礎(chǔ)上進行網(wǎng)頁識別及監(jiān)測；

S4，輸出分塊后的網(wǎng)頁。

優(yōu)選地，步驟S1中所述預(yù)處理包括空白字符壓縮、網(wǎng)頁標(biāo)簽統(tǒng)一轉(zhuǎn)換為小寫、將非標(biāo)簽的<符號轉(zhuǎn)換為實體、處理需要過濾處理的標(biāo)簽內(nèi)容和網(wǎng)頁字符集識別與轉(zhuǎn)換。

優(yōu)選地，步驟S2包括：

S21，計算所述DOM語法樹中每個節(jié)點的原子標(biāo)簽數(shù)量，識別物理塊類型；

S22，對識別出來的物理塊中不符合標(biāo)準(zhǔn)的塊進行整合。

優(yōu)選地，所述物理塊類型包括原子塊和原子集。

優(yōu)選地，S22中所述不符合標(biāo)準(zhǔn)的塊指塊文字內(nèi)容少、空html標(biāo)簽、a標(biāo)簽中href地址鏈接到其它網(wǎng)站以及廣告鏈接的物理塊。

優(yōu)選地，步驟S3包括：

S31，在物理塊類型的基礎(chǔ)上再進行粗粒度網(wǎng)頁頁面類型識別；

S32，根據(jù)識別出來的物理塊類型和粗粒度網(wǎng)頁類型再進行更精細的網(wǎng)頁邏輯塊類型識別；

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國搜索信息科技股份有限公司，未經(jīng)中國搜索信息科技股份有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201811299864.2/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

同類專利

專利分類

G 物理

G06 計算；推算；計數(shù)
G06F 電數(shù)字?jǐn)?shù)據(jù)處理

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】