[發(fā)明專利]一種基于網(wǎng)頁語義結(jié)構(gòu)的網(wǎng)頁分塊方法有效
| 申請?zhí)枺?/td> | 201811299864.2 | 申請日: | 2018-11-02 |
| 公開(公告)號: | CN109492177B | 公開(公告)日: | 2019-12-17 |
| 發(fā)明(設(shè)計)人: | 肖碧松;趙芳芳 | 申請(專利權(quán))人: | 中國搜索信息科技股份有限公司 |
| 主分類號: | G06F16/957 | 分類號: | G06F16/957;G06F16/951 |
| 代理公司: | 11337 北京市盛峰律師事務(wù)所 | 代理人: | 于國富 |
| 地址: | 100000 北京市大興*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 網(wǎng)頁 網(wǎng)頁分塊 網(wǎng)頁語義 物理塊 預(yù)處理 內(nèi)容抽取 輸出結(jié)構(gòu) 網(wǎng)頁編輯 網(wǎng)頁識別 網(wǎng)頁頁面 重新排版 精準(zhǔn)度 語法樹 重要度 分塊 權(quán)重 整合 過濾 輸出 監(jiān)測 廣告 | ||
本發(fā)明提供一種基于網(wǎng)頁語義結(jié)構(gòu)的網(wǎng)頁分塊方法,涉及網(wǎng)頁編輯領(lǐng)域;所述網(wǎng)頁分塊方法包括以下步驟:S1,將獲取到的網(wǎng)頁html源碼進行預(yù)處理,建立DOM語法樹;S2,對DOM樹進行物理塊識別和整合;S3,在物理塊類型基礎(chǔ)上進行網(wǎng)頁識別及監(jiān)測;S4,輸出分塊后的網(wǎng)頁。本發(fā)明提供的網(wǎng)頁分塊方法能更準(zhǔn)確識別網(wǎng)頁頁面類型以及網(wǎng)頁塊的重要度,方便過濾一些廣告塊和權(quán)重較低的塊;方便對原網(wǎng)頁進行重新排版,并輸出結(jié)構(gòu)化數(shù)據(jù);根據(jù)不同類型網(wǎng)頁切分網(wǎng)頁塊,提升了內(nèi)容抽取的精準(zhǔn)度。
技術(shù)領(lǐng)域
本發(fā)明涉及網(wǎng)頁編輯領(lǐng)域,尤其涉及一種基于網(wǎng)頁語義結(jié)構(gòu)的網(wǎng)頁分塊方法。
背景技術(shù)
為了滿足方便手機用戶瀏覽互聯(lián)網(wǎng)網(wǎng)頁,將www網(wǎng)頁內(nèi)容轉(zhuǎn)化為手機終端方便瀏覽的頁面,我們提出了一種基于網(wǎng)頁語義結(jié)構(gòu)的網(wǎng)頁分塊方法,先把網(wǎng)頁分成多個塊,再跟據(jù)分塊的把最優(yōu)的塊展現(xiàn)給手機終端用戶。目前,該應(yīng)用領(lǐng)域主要的解決方案為基于視覺的Web頁面分塊(Vision-based Page Segmentation,VIPS)。
VIPS利用了諸如字體、顏色、大小等版面特征.它根據(jù)一定的語義關(guān)聯(lián)規(guī)則,將整個網(wǎng)頁表示成一棵HTML DOM樹,然后通過橫豎線條將節(jié)點所對應(yīng)的分塊在網(wǎng)頁中分隔開來,構(gòu)成網(wǎng)頁的標(biāo)準(zhǔn)分塊,其主要技術(shù)特征包括:
1)DOM樹進行頁面語義分塊,計算和保存DOM樹中的所有節(jié)點的視覺信息。
2)從視覺特征對頁面結(jié)構(gòu)進行挖掘,如頁面的視覺提示如背景顏色、字體顏色和大小、邊框、邏輯塊和邏輯塊之間的間距等。
3)提取出所有的合適的頁面塊。
4)檢測頁面塊之間的所有的分割條,包括水平和垂直方向,基于這些分割條切割網(wǎng)頁塊。
但是上述現(xiàn)有技術(shù)由于視覺特征的復(fù)雜性,如何保證視覺特征信息是一大難點;其次,VIPS算法需要計算和保存DOM樹中的所有節(jié)點的視覺信息,這就導(dǎo)致該算法在時間和內(nèi)存上消耗比較大,使得在處理含有大量節(jié)點的網(wǎng)頁時性能不高。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種基于網(wǎng)頁語義結(jié)構(gòu)的網(wǎng)頁分塊方法,從而解決現(xiàn)有技術(shù)中存在的前述問題。
為了實現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案如下:
一種基于網(wǎng)頁語義結(jié)構(gòu)的網(wǎng)頁分塊方法,包括以下步驟:
S1,將獲取到的網(wǎng)頁html源碼進行預(yù)處理,建立DOM語法樹;
S2,對DOM樹進行物理塊識別和整合;
S3,在物理塊類型基礎(chǔ)上進行網(wǎng)頁識別及監(jiān)測;
S4,輸出分塊后的網(wǎng)頁。
優(yōu)選地,步驟S1中所述預(yù)處理包括空白字符壓縮、網(wǎng)頁標(biāo)簽統(tǒng)一轉(zhuǎn)換為小寫、將非標(biāo)簽的<符號轉(zhuǎn)換為實體、處理需要過濾處理的標(biāo)簽內(nèi)容和網(wǎng)頁字符集識別與轉(zhuǎn)換。
優(yōu)選地,步驟S2包括:
S21,計算所述DOM語法樹中每個節(jié)點的原子標(biāo)簽數(shù)量,識別物理塊類型;
S22,對識別出來的物理塊中不符合標(biāo)準(zhǔn)的塊進行整合。
優(yōu)選地,所述物理塊類型包括原子塊和原子集。
優(yōu)選地,S22中所述不符合標(biāo)準(zhǔn)的塊指塊文字內(nèi)容少、空html標(biāo)簽、a標(biāo)簽中href地址鏈接到其它網(wǎng)站以及廣告鏈接的物理塊。
優(yōu)選地,步驟S3包括:
S31,在物理塊類型的基礎(chǔ)上再進行粗粒度網(wǎng)頁頁面類型識別;
S32,根據(jù)識別出來的物理塊類型和粗粒度網(wǎng)頁類型再進行更精細的網(wǎng)頁邏輯塊類型識別;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國搜索信息科技股份有限公司,未經(jīng)中國搜索信息科技股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811299864.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種頁面信息更新方法及裝置
- 下一篇:一種切換視圖的方法及裝置
- 一種網(wǎng)頁分塊的重要度評估方法和設(shè)備
- 一種移動網(wǎng)絡(luò)中網(wǎng)頁的發(fā)送方法及系統(tǒng)
- 對網(wǎng)頁進行轉(zhuǎn)碼后建立目錄的方法以及服務(wù)器
- 正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)的處理方法及裝置
- 網(wǎng)頁元素抽取方法和網(wǎng)頁元素抽取系統(tǒng)
- 網(wǎng)頁內(nèi)容抽取方法和網(wǎng)頁內(nèi)容抽取系統(tǒng)
- 網(wǎng)頁數(shù)據(jù)加解密方法、裝置和系統(tǒng)
- 一種基于分塊的網(wǎng)頁正文信息提取方法
- 一種基于網(wǎng)頁語義結(jié)構(gòu)的網(wǎng)頁分塊方法
- 一種用于網(wǎng)頁分塊的方法及系統(tǒng)
- 支持語義耦合的設(shè)備自適應(yīng)網(wǎng)頁布局方法
- 應(yīng)用語義向量和關(guān)鍵字分析關(guān)聯(lián)數(shù)據(jù)集的方法和裝置
- 信息抓取方法
- 一種基于云語義庫的網(wǎng)頁審計方法
- 一種基于網(wǎng)頁結(jié)構(gòu)語義的互聯(lián)網(wǎng)信息對象定位方法
- 基于語義的藏文網(wǎng)頁文本分類方法
- 一種基于URL的中文多語義名詞的在線語義挖掘系統(tǒng)
- 一種網(wǎng)頁正文提取方法及裝置
- 網(wǎng)頁搜集推薦方法和裝置
- 網(wǎng)頁數(shù)據(jù)分析的方法、設(shè)備和系統(tǒng)





