[發(fā)明專利]一種基于網(wǎng)頁(yè)語(yǔ)義結(jié)構(gòu)的網(wǎng)頁(yè)分塊方法有效
| 申請(qǐng)?zhí)枺?/td> | 201811299864.2 | 申請(qǐng)日: | 2018-11-02 |
| 公開(kāi)(公告)號(hào): | CN109492177B | 公開(kāi)(公告)日: | 2019-12-17 |
| 發(fā)明(設(shè)計(jì))人: | 肖碧松;趙芳芳 | 申請(qǐng)(專利權(quán))人: | 中國(guó)搜索信息科技股份有限公司 |
| 主分類號(hào): | G06F16/957 | 分類號(hào): | G06F16/957;G06F16/951 |
| 代理公司: | 11337 北京市盛峰律師事務(wù)所 | 代理人: | 于國(guó)富 |
| 地址: | 100000 北京市大興*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 網(wǎng)頁(yè) 網(wǎng)頁(yè)分塊 網(wǎng)頁(yè)語(yǔ)義 物理塊 預(yù)處理 內(nèi)容抽取 輸出結(jié)構(gòu) 網(wǎng)頁(yè)編輯 網(wǎng)頁(yè)識(shí)別 網(wǎng)頁(yè)頁(yè)面 重新排版 精準(zhǔn)度 語(yǔ)法樹(shù) 重要度 分塊 權(quán)重 整合 過(guò)濾 輸出 監(jiān)測(cè) 廣告 | ||
1.一種基于網(wǎng)頁(yè)語(yǔ)義結(jié)構(gòu)的網(wǎng)頁(yè)分塊方法,其特征在于,包括以下步驟:
S1, 將獲取到的網(wǎng)頁(yè)html源碼進(jìn)行預(yù)處理,建立DOM語(yǔ)法樹(shù);
S2,對(duì)DOM語(yǔ)法樹(shù)進(jìn)行物理塊識(shí)別和整合;
S3,在物理塊類型基礎(chǔ)上進(jìn)行網(wǎng)頁(yè)識(shí)別及監(jiān)測(cè);
S4,輸出分塊后的網(wǎng)頁(yè);
步驟S2包括:
S21,計(jì)算所述DOM語(yǔ)法樹(shù)中每個(gè)節(jié)點(diǎn)的原子標(biāo)簽數(shù)量,識(shí)別物理塊類型;
S22,對(duì)識(shí)別出來(lái)的物理塊中不符合標(biāo)準(zhǔn)的塊進(jìn)行整合;
步驟S21中物理塊類型包括原子塊和原子集,其中原子塊包括小圖片塊、大圖片塊、短文本塊、長(zhǎng)文本塊、短外鏈接文本塊、長(zhǎng)外鏈接文本塊、短鏈接文本塊、長(zhǎng)鏈接文本塊、外鏈接圖片塊和鏈接圖片塊,原子集包括橫向短鏈接原子集、縱向短鏈接原子集、橫向長(zhǎng)鏈接原子集、縱向長(zhǎng)鏈接原子集、短文本原子集、長(zhǎng)文本原子集、橫向圖片原子集、縱向圖片原子集、正文原子集以及圖片文字原子集;
在進(jìn)行判斷原子塊的數(shù)量時(shí),首先判斷是否是一個(gè)原子塊,如果是,則直接構(gòu)建原子塊,進(jìn)行物理塊識(shí)別;若不是,則需要建立原子集,再進(jìn)行物理塊識(shí)別。
2.根據(jù)權(quán)利要求1所述的基于網(wǎng)頁(yè)語(yǔ)義結(jié)構(gòu)的網(wǎng)頁(yè)分塊方法,其特征在于,步驟S1中所述預(yù)處理包括空白字符壓縮、網(wǎng)頁(yè)標(biāo)簽統(tǒng)一轉(zhuǎn)換為小寫、將非標(biāo)簽的“<”符號(hào)轉(zhuǎn)換為實(shí)體、處理需要過(guò)濾處理的標(biāo)簽內(nèi)容和網(wǎng)頁(yè)字符集識(shí)別與轉(zhuǎn)換。
3.根據(jù)權(quán)利要求1所述的基于網(wǎng)頁(yè)語(yǔ)義結(jié)構(gòu)的網(wǎng)頁(yè)分塊方法,其特征在于,S22中所述不符合標(biāo)準(zhǔn)的塊指塊文字內(nèi)容少、空html標(biāo)簽、a標(biāo)簽中href地址鏈接到其它網(wǎng)站以及廣告鏈接的物理塊。
4.根據(jù)權(quán)利要求1所述的基于網(wǎng)頁(yè)語(yǔ)義結(jié)構(gòu)的網(wǎng)頁(yè)分塊方法,其特征在于,步驟S3包括:
S31,在物理塊類型的基礎(chǔ)上再進(jìn)行粗粒度網(wǎng)頁(yè)頁(yè)面類型識(shí)別;
S32,根據(jù)識(shí)別出來(lái)的物理塊類型和粗粒度網(wǎng)頁(yè)類型再進(jìn)行更精細(xì)的網(wǎng)頁(yè)邏輯塊類型識(shí)別;
S33,根據(jù)網(wǎng)頁(yè)邏輯塊類型檢查邏輯塊類型相關(guān)數(shù)據(jù)是否與之前識(shí)別的粗粒度頁(yè)面類型相吻合,如不吻合,則在網(wǎng)頁(yè)邏輯塊類型的基礎(chǔ)上再進(jìn)行粗粒度頁(yè)面類型識(shí)別,跳轉(zhuǎn)到S31;
S34,在網(wǎng)頁(yè)邏輯塊類型識(shí)別的基礎(chǔ)上進(jìn)行精細(xì)網(wǎng)頁(yè)類型識(shí)別。
5.根據(jù)權(quán)利要求4所述的基于網(wǎng)頁(yè)語(yǔ)義結(jié)構(gòu)的網(wǎng)頁(yè)分塊方法,其特征在于,步驟S32之后還包括網(wǎng)頁(yè)邏輯塊融合,對(duì)一些識(shí)別質(zhì)量較差的邏輯塊進(jìn)行融合,融合的原則根據(jù)粗粒度頁(yè)面類型而定。
6.根據(jù)權(quán)利要求5所述的基于網(wǎng)頁(yè)語(yǔ)義結(jié)構(gòu)的網(wǎng)頁(yè)分塊方法,其特征在于,步驟S31中所述粗粒度網(wǎng)頁(yè)類型包括導(dǎo)航類型網(wǎng)頁(yè),正文類型網(wǎng)頁(yè)和圖片類型網(wǎng)頁(yè)。
7.根據(jù)權(quán)利要求5所述的基于網(wǎng)頁(yè)語(yǔ)義結(jié)構(gòu)的網(wǎng)頁(yè)分塊方法,其特征在于,步驟S32中所述網(wǎng)頁(yè)邏輯塊類型包括網(wǎng)頁(yè)公用邏輯塊,正文類型網(wǎng)頁(yè)邏輯塊,導(dǎo)航類型網(wǎng)頁(yè)邏輯塊和圖片類型網(wǎng)頁(yè)邏輯塊。
8.根據(jù)權(quán)利要求5所述的基于網(wǎng)頁(yè)語(yǔ)義結(jié)構(gòu)的網(wǎng)頁(yè)分塊方法,其特征在于,步驟S34中所述精細(xì)網(wǎng)頁(yè)類型包括門戶網(wǎng)站首頁(yè)、站內(nèi)導(dǎo)航頁(yè)、外鏈接導(dǎo)航列表頁(yè)、新聞?wù)捻?yè)、視頻內(nèi)容頁(yè)、小說(shuō)簡(jiǎn)介頁(yè)、小說(shuō)章節(jié)頁(yè)、小說(shuō)正文頁(yè)、論壇帖子列表頁(yè)、論壇帖子評(píng)論頁(yè)、博客內(nèi)容頁(yè)、微博頁(yè)、小圖片列表頁(yè)、大圖片頁(yè)和幻燈片頁(yè)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國(guó)搜索信息科技股份有限公司,未經(jīng)中國(guó)搜索信息科技股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811299864.2/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 上一篇:一種頁(yè)面信息更新方法及裝置
- 下一篇:一種切換視圖的方法及裝置
- 一種搜索網(wǎng)頁(yè)的方法和裝置
- 網(wǎng)頁(yè)類型識(shí)別方法以及網(wǎng)頁(yè)類型識(shí)別裝置
- 網(wǎng)頁(yè)生成方法及網(wǎng)頁(yè)生成裝置
- 網(wǎng)頁(yè)修改方法及網(wǎng)頁(yè)修改裝置
- 網(wǎng)頁(yè)訪問(wèn)處理方法
- 獲取網(wǎng)頁(yè)信息方法和裝置
- 網(wǎng)頁(yè)資源的獲取方法、裝置及終端
- 一種網(wǎng)頁(yè)制作方法、系統(tǒng)、可讀存儲(chǔ)介質(zhì)及服務(wù)器
- 網(wǎng)頁(yè)安全處理方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 一種網(wǎng)頁(yè)同步的方法、系統(tǒng)
- 一種網(wǎng)頁(yè)分塊的重要度評(píng)估方法和設(shè)備
- 一種移動(dòng)網(wǎng)絡(luò)中網(wǎng)頁(yè)的發(fā)送方法及系統(tǒng)
- 對(duì)網(wǎng)頁(yè)進(jìn)行轉(zhuǎn)碼后建立目錄的方法以及服務(wù)器
- 正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)的處理方法及裝置
- 網(wǎng)頁(yè)元素抽取方法和網(wǎng)頁(yè)元素抽取系統(tǒng)
- 網(wǎng)頁(yè)內(nèi)容抽取方法和網(wǎng)頁(yè)內(nèi)容抽取系統(tǒng)
- 網(wǎng)頁(yè)數(shù)據(jù)加解密方法、裝置和系統(tǒng)
- 一種基于分塊的網(wǎng)頁(yè)正文信息提取方法
- 一種基于網(wǎng)頁(yè)語(yǔ)義結(jié)構(gòu)的網(wǎng)頁(yè)分塊方法
- 一種用于網(wǎng)頁(yè)分塊的方法及系統(tǒng)
- 支持語(yǔ)義耦合的設(shè)備自適應(yīng)網(wǎng)頁(yè)布局方法
- 應(yīng)用語(yǔ)義向量和關(guān)鍵字分析關(guān)聯(lián)數(shù)據(jù)集的方法和裝置
- 信息抓取方法
- 一種基于云語(yǔ)義庫(kù)的網(wǎng)頁(yè)審計(jì)方法
- 一種基于網(wǎng)頁(yè)結(jié)構(gòu)語(yǔ)義的互聯(lián)網(wǎng)信息對(duì)象定位方法
- 基于語(yǔ)義的藏文網(wǎng)頁(yè)文本分類方法
- 一種基于URL的中文多語(yǔ)義名詞的在線語(yǔ)義挖掘系統(tǒng)
- 一種網(wǎng)頁(yè)正文提取方法及裝置
- 網(wǎng)頁(yè)搜集推薦方法和裝置
- 網(wǎng)頁(yè)數(shù)據(jù)分析的方法、設(shè)備和系統(tǒng)





