[發(fā)明專利]提取結(jié)構(gòu)化數(shù)據(jù)的方法及裝置有效
| 申請?zhí)枺?/td> | 201310529428.0 | 申請日: | 2013-10-30 |
| 公開(公告)號: | CN104598462B | 公開(公告)日: | 2018-08-07 |
| 發(fā)明(設(shè)計)人: | 歐陽科;杜建欣;齊彥申 | 申請(專利權(quán))人: | 深圳市國信互聯(lián)科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 深圳市順天達專利商標代理有限公司 44217 | 代理人: | 王小青 |
| 地址: | 518040 廣東省深圳市南山*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 提取 結(jié)構(gòu) 數(shù)據(jù) 方法 裝置 | ||
1.一種提取結(jié)構(gòu)化數(shù)據(jù)的方法,其特征在于,包括:
將網(wǎng)頁劃分為主體區(qū)域和輔助區(qū)域,構(gòu)建用于表示所述主體區(qū)域的XPATH標記樹,該步驟包括:解析網(wǎng)頁,獲取所述網(wǎng)頁的XPATH節(jié)點;根據(jù)所述XPATH節(jié)點的屬性對所述XPATH節(jié)點進行過濾,獲取體現(xiàn)網(wǎng)頁結(jié)構(gòu)布局的XPATH節(jié)點;將所述體現(xiàn)網(wǎng)頁結(jié)構(gòu)布局的XPATH節(jié)點劃分為用于表示主體區(qū)域的XPATH節(jié)點和用于表示輔助區(qū)域的XPATH節(jié)點,提取用于表示所述主體區(qū)域的XPATH節(jié)點構(gòu)建XPATH標記樹;
將所述XPATH標記樹中的XPATH節(jié)點與CSS標簽進行對應(yīng),并根據(jù)CSS標簽內(nèi)容的相似度將所述CSS標簽進行分組;
若所述XPATH標記樹中各個XPATH節(jié)點的CSS標簽均屬于同一分組,且所述各個XPATH節(jié)點的CSS標簽是屬于同一父標簽下的子標簽,則提取所述XPATH標記樹中各個XPATH節(jié)點對應(yīng)的數(shù)據(jù)作為正文內(nèi)容。
2.如權(quán)利要求1所述的提取結(jié)構(gòu)化數(shù)據(jù)的方法,其特征在于,所述根據(jù)CSS標簽內(nèi)容的相似度將所述CSS標簽進行分組的步驟包括:
提取所述CSS標簽內(nèi)容中的特征屬性,所述特征屬性包括字體大小、顏色和/或行間距;
將所述特征屬性一致的CSS標簽作為一個分組。
3.如權(quán)利要求1所述的提取結(jié)構(gòu)化數(shù)據(jù)的方法,其特征在于,所述方法還包括:
若所述XPATH標記樹中各個XPATH節(jié)點的CSS標簽不屬于同一分組,或所述各個XPATH節(jié)點的CSS標簽不是屬于同一父標簽下的子標簽,則選擇CSS標簽數(shù)量最多的分組作為最優(yōu)分組,提取所述最優(yōu)分組中的CSS標簽所對應(yīng)的XPATH節(jié)點下的數(shù)據(jù)作為正文內(nèi)容。
4.如權(quán)利要求1所述的提取結(jié)構(gòu)化數(shù)據(jù)的方法,其特征在于,所述方法還包括:
若所述XPATH標記樹中各個XPATH節(jié)點的CSS標簽不屬于同一分組,或所述各個XPATH節(jié)點的CSS標簽不是屬于同一父標簽下的子標簽,則統(tǒng)計各個分組中的CSS標簽的數(shù)量,剔除數(shù)量最少的一組CSS標簽對應(yīng)的XPATH節(jié)點,提取所述XPATH標記樹中剩余XPATH節(jié)點對應(yīng)的數(shù)據(jù)作為正文內(nèi)容。
5.一種提取結(jié)構(gòu)化數(shù)據(jù)的裝置,其特征在于,包括:
主體區(qū)域提取模塊,用于將網(wǎng)頁劃分為主體區(qū)域和輔助區(qū)域,構(gòu)建用于表示所述主體區(qū)域的XPATH標記樹;所述主體區(qū)域提取模塊包括:網(wǎng)頁解析模塊,用于解析網(wǎng)頁,獲取所述網(wǎng)頁的XPATH節(jié)點;粗略過濾模塊,用于根據(jù)所述XPATH節(jié)點的屬性對所述XPATH節(jié)點進行過濾,獲取體現(xiàn)網(wǎng)頁結(jié)構(gòu)布局的XPATH節(jié)點;XPATH標記樹構(gòu)建模塊,用于將所述體現(xiàn)網(wǎng)頁結(jié)構(gòu)布局的XPATH節(jié)點劃分為用于表示主體區(qū)域的XPATH節(jié)點和用于表示輔助區(qū)域的XPATH節(jié)點,提取用于表示所述主體區(qū)域的XPATH節(jié)點構(gòu)建XPATH標記樹;
CSS標簽對應(yīng)模塊,用于將所述XPATH標記樹中的XPATH節(jié)點與CSS標簽進行對應(yīng);
CSS標簽分組模塊,用于根據(jù)CSS標簽內(nèi)容的相似度將所述CSS標簽進行分組;
正文提取模塊,用于若所述XPATH標記樹中各個XPATH節(jié)點的CSS標簽均屬于同一分組,且所述各個XPATH節(jié)點的CSS標簽是屬于同一父標簽下的子標簽,則提取所述XPATH標記樹中各個XPATH節(jié)點對應(yīng)的數(shù)據(jù)作為正文內(nèi)容。
6.如權(quán)利要求5所述的提取結(jié)構(gòu)化數(shù)據(jù)的裝置,其特征在于,所述CSS標簽分組模塊包括:
特征屬性提取模塊,用于提取所述CSS標簽內(nèi)容中的特征屬性,所述特征屬性包括字體大小、顏色和/或行間距;
特征屬性對比模塊,用于將所述特征屬性一致的CSS標簽作為一個分組。
7.如權(quán)利要求5所述的提取結(jié)構(gòu)化數(shù)據(jù)的裝置,其特征在于,所述裝置還包括:
第一優(yōu)化模塊,用于若所述XPATH標記樹中各個XPATH節(jié)點的CSS標簽不屬于同一分組,或所述各個XPATH節(jié)點的CSS標簽不是屬于同一父標簽下的子標簽,則選擇CSS標簽數(shù)量最多的分組作為最優(yōu)分組,提取所述最優(yōu)分組中的CSS標簽所對應(yīng)的XPATH節(jié)點下的數(shù)據(jù)作為正文內(nèi)容。
8.如權(quán)利要求5所述的提取結(jié)構(gòu)化數(shù)據(jù)的裝置,其特征在于,所述裝置還包括:
第二優(yōu)化模塊,用于若所述XPATH標記樹中各個XPATH節(jié)點的CSS標簽不屬于同一分組,或所述各個XPATH節(jié)點的CSS標簽不是屬于同一父標簽下的子標簽,則統(tǒng)計各個分組中的CSS標簽的數(shù)量,剔除數(shù)量最少的一組CSS標簽對應(yīng)的XPATH節(jié)點,提取所述XPATH標記樹中剩余XPATH節(jié)點對應(yīng)的數(shù)據(jù)作為正文內(nèi)容。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于深圳市國信互聯(lián)科技有限公司,未經(jīng)深圳市國信互聯(lián)科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310529428.0/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 卡片結(jié)構(gòu)、插座結(jié)構(gòu)及其組合結(jié)構(gòu)
- 鋼結(jié)構(gòu)平臺結(jié)構(gòu)
- 鋼結(jié)構(gòu)支撐結(jié)構(gòu)
- 鋼結(jié)構(gòu)支撐結(jié)構(gòu)
- 單元結(jié)構(gòu)、結(jié)構(gòu)部件和夾層結(jié)構(gòu)
- 鋼結(jié)構(gòu)扶梯結(jié)構(gòu)
- 鋼結(jié)構(gòu)隔墻結(jié)構(gòu)
- 鋼結(jié)構(gòu)連接結(jié)構(gòu)
- 螺紋結(jié)構(gòu)、螺孔結(jié)構(gòu)、機械結(jié)構(gòu)和光學(xué)結(jié)構(gòu)
- 螺紋結(jié)構(gòu)、螺孔結(jié)構(gòu)、機械結(jié)構(gòu)和光學(xué)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





