[發(fā)明專利]網(wǎng)頁中的頁面正文提取方法和裝置有效
| 申請?zhí)枺?/td> | 201611218222.6 | 申請日: | 2016-12-26 |
| 公開(公告)號: | CN106874346B | 公開(公告)日: | 2020-10-30 |
| 發(fā)明(設(shè)計)人: | 鄢軍;佟京;劉城;孫政 | 申請(專利權(quán))人: | 微夢創(chuàng)科網(wǎng)絡(luò)科技(中國)有限公司 |
| 主分類號: | G06F16/958 | 分類號: | G06F16/958 |
| 代理公司: | 北京卓嵐智財知識產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙) 11624 | 代理人: | 李延容;張建秀 |
| 地址: | 100193 北京市海淀區(qū)東北旺西路中關(guān)村*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 網(wǎng)頁 中的 頁面 正文 提取 方法 裝置 | ||
本發(fā)明實施例提供一種網(wǎng)頁中的頁面正文提取方法和裝置,其中,該方法包括:加載待提取的頁面;確定頁面中的文章標(biāo)題對應(yīng)的標(biāo)簽元素;以文章標(biāo)題對應(yīng)的標(biāo)簽元素作為基準(zhǔn)點,獲取頁面中文章標(biāo)題之前的標(biāo)簽元素列表和文章標(biāo)題之后的標(biāo)簽元素列表;基于文章標(biāo)題對應(yīng)的標(biāo)簽元素,從文章標(biāo)題之前的標(biāo)簽元素列表和文章標(biāo)題之后的標(biāo)簽元素列表中,確定出頁面中的正文頁面塊對應(yīng)的標(biāo)簽元素;將確定出的正文頁面塊對應(yīng)的標(biāo)簽元素對應(yīng)的頁面塊中的內(nèi)容作為頁面正文提取。通過確定正文標(biāo)簽的方式,來確定正文的位置,可以達(dá)到快速、準(zhǔn)確性高的確定正文的目的,且僅需要請求靜態(tài)頁面,無需對頁面進(jìn)行渲染,因此,減少了部署復(fù)雜度,實現(xiàn)起來較為簡單。
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,具體涉及一種網(wǎng)頁中的頁面正文提取方法和裝置。
背景技術(shù)
目前,在互聯(lián)網(wǎng)中,會產(chǎn)生海量的頁面,然而,頁面之間的排版布局往往是不同的,如果從頁面中快速準(zhǔn)確提取出正文,一直都是個比較困難的問題。
現(xiàn)有的方式主要有:
1)通過下載靜態(tài)頁面,然后分析各個頁面塊的文本密度值,將文本密度最大的頁面快作為該頁面的正文;
2)通過網(wǎng)頁渲染的方式,對網(wǎng)頁進(jìn)行分析劃分,通過網(wǎng)頁塊的劃分結(jié)果,來獲取正文。
然而,上述兩種方式都存在一定的問題,通過文本密度進(jìn)行正文提取的方法,識別準(zhǔn)確率較低,且對復(fù)雜一點的網(wǎng)頁,適應(yīng)能力較差。通過網(wǎng)頁渲染進(jìn)行正文提取的方法,正文提取速度較慢,且對渲染引擎要求比較高,應(yīng)用部署相對復(fù)雜。
針對上述問題,目前尚未提出有效的解決方案。
發(fā)明內(nèi)容
本發(fā)明實施例提供一種網(wǎng)頁中的頁面正文提取方法和裝置,以提高正文提取的準(zhǔn)確性,且部署起來較為簡單。
一方面,本發(fā)明實施例提供了一種網(wǎng)頁中的頁面正文提取方法,包括:
加載待提取的頁面;
確定所述頁面中的文章標(biāo)題對應(yīng)的標(biāo)簽元素;
以所述文章標(biāo)題對應(yīng)的標(biāo)簽元素作為基準(zhǔn)點,獲取所述頁面中所述文章標(biāo)題之前的標(biāo)簽元素列表和所述文章標(biāo)題之后的標(biāo)簽元素列表;
基于所述文章標(biāo)題對應(yīng)的標(biāo)簽元素,從所述文章標(biāo)題之前的標(biāo)簽元素列表和所述文章標(biāo)題之后的標(biāo)簽元素列表中,確定出所述頁面中的正文頁面塊對應(yīng)的標(biāo)簽元素;
將確定出的正文頁面塊對應(yīng)的標(biāo)簽元素對應(yīng)的頁面塊中的內(nèi)容作為頁面正文提取。
在一個實施方式中,確定所述頁面中的文章標(biāo)題對應(yīng)的標(biāo)簽元素,包括:
通過識別所述頁面中的文章信息數(shù)據(jù),確定文章信息數(shù)據(jù)所在的標(biāo)簽元素;
將所述文章信息數(shù)據(jù)所在的標(biāo)簽元素之前的各標(biāo)簽元素中,第一個滿足預(yù)設(shè)的標(biāo)題特征的標(biāo)簽元素作為所述文章標(biāo)題對應(yīng)的標(biāo)簽元素。
在一個實施方式中,所述文章信息數(shù)據(jù)至少包括以下數(shù)據(jù)之一:文章來源、文章作者、文章日期、文章字體和文章作者。
在一個實施方式中,所述預(yù)設(shè)的標(biāo)題特征至少包括以下特征之一:沒有孩子節(jié)點、節(jié)點內(nèi)容不為空、不是時間格式的文本、文本含有最多一個字符。
在一個實施方式中,基于所述文章標(biāo)題對應(yīng)的標(biāo)簽元素,從所述文章標(biāo)題之前的標(biāo)簽元素列表和所述文章標(biāo)題之后的標(biāo)簽元素列表中,確定出所述頁面中的正文頁面塊對應(yīng)的標(biāo)簽元素,包括:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于微夢創(chuàng)科網(wǎng)絡(luò)科技(中國)有限公司,未經(jīng)微夢創(chuàng)科網(wǎng)絡(luò)科技(中國)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611218222.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





