[發(fā)明專利]一種網(wǎng)頁(yè)正文抽取方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)在審
| 申請(qǐng)?zhí)枺?/td> | 202110707708.0 | 申請(qǐng)日: | 2021-06-24 |
| 公開(公告)號(hào): | CN113378088A | 公開(公告)日: | 2021-09-10 |
| 發(fā)明(設(shè)計(jì))人: | 劉旭東;張尼;薛繼東;蘇馬婧;宋棟;劉紅 | 申請(qǐng)(專利權(quán))人: | 中國(guó)電子信息產(chǎn)業(yè)集團(tuán)有限公司第六研究所 |
| 主分類號(hào): | G06F16/957 | 分類號(hào): | G06F16/957;G06F40/14 |
| 代理公司: | 北京超凡宏宇專利代理事務(wù)所(特殊普通合伙) 11463 | 代理人: | 董艷芳 |
| 地址: | 102209 北京市昌平*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 網(wǎng)頁(yè) 正文 抽取 方法 裝置 設(shè)備 存儲(chǔ) 介質(zhì) | ||
本申請(qǐng)?zhí)峁┝艘环N網(wǎng)頁(yè)正文抽取方法、裝置、設(shè)備及存儲(chǔ)介質(zhì),該方法包括:從網(wǎng)頁(yè)內(nèi)容中抽取出網(wǎng)頁(yè)正文段落,將抽取的網(wǎng)頁(yè)正文段落添加至文本文件中,計(jì)算網(wǎng)頁(yè)內(nèi)容中每個(gè)起始標(biāo)簽和結(jié)束標(biāo)簽之間標(biāo)點(diǎn)符號(hào)數(shù)量與包含字符數(shù)量的最小商值,得到的最小商值作為網(wǎng)頁(yè)正文判定閾值,根據(jù)抽取模板中起始文本信息和結(jié)束文本信息,確定標(biāo)簽滑動(dòng)窗口,根據(jù)標(biāo)簽滑動(dòng)窗口遍歷網(wǎng)頁(yè)內(nèi)容中標(biāo)點(diǎn)符號(hào)數(shù)量與包含字符數(shù)量,抽取符合網(wǎng)頁(yè)正文判定閾值的網(wǎng)頁(yè)正文字段。本申請(qǐng)的有益效果在于:能夠根據(jù)網(wǎng)頁(yè)正文判定閾值從網(wǎng)頁(yè)內(nèi)容中精準(zhǔn)的抽取出網(wǎng)頁(yè)正文段落,提高了抽取精度、避免了抽取網(wǎng)頁(yè)正文段落的冗余問(wèn)題,以及通過(guò)滑動(dòng)窗口算法,有效提高了抽取效率。
技術(shù)領(lǐng)域
本申請(qǐng)涉及計(jì)算機(jī)技術(shù)領(lǐng)域,具體而言,涉及一種網(wǎng)頁(yè)正文抽取方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)。
背景技術(shù)
隨著移動(dòng)互聯(lián)網(wǎng)技術(shù)蓬勃發(fā)展,在大數(shù)據(jù)、云計(jì)算以及新興信息技術(shù)不斷廣泛應(yīng)用的背景下,信息過(guò)載程度加劇,信息多樣化趨勢(shì)明顯,CSS、JS、TS等技術(shù)的應(yīng)用使得網(wǎng)頁(yè)層次更豐富的同時(shí),不同的網(wǎng)頁(yè)結(jié)構(gòu)呈現(xiàn)出多樣化與個(gè)性化特征,用戶往往很難迅速聚焦于網(wǎng)頁(yè)的核心內(nèi)容,大量的網(wǎng)頁(yè)噪聲會(huì)導(dǎo)致在抽取網(wǎng)頁(yè)正文信息時(shí)變得愈加困難且復(fù)雜,而網(wǎng)頁(yè)中的正文內(nèi)容主要集中在網(wǎng)頁(yè)的部分區(qū)域中,這片區(qū)域中的標(biāo)簽繁多雜亂并可能包含多個(gè)符號(hào)及特殊字符等,給網(wǎng)頁(yè)正文的準(zhǔn)確抽取帶來(lái)了巨大的挑戰(zhàn)。
現(xiàn)階段網(wǎng)頁(yè)正文抽取通常包括以下幾種:一是請(qǐng)求并下載網(wǎng)頁(yè)原始HTML代碼,從中分析出包含正文段落的標(biāo)簽,根據(jù)標(biāo)簽含義去抽取正文,該抽取方式存在一定的技術(shù)不足,由于不同的網(wǎng)站中正文所處的位置不同,并且HTML的結(jié)構(gòu)也不同,不可能針對(duì)所有的頁(yè)面制定相應(yīng)的正文抽取規(guī)則來(lái)抽取正文內(nèi)容;二是基于標(biāo)簽密度判定的網(wǎng)頁(yè)正文抽取,根據(jù)網(wǎng)頁(yè)正文中部分HTML標(biāo)簽密度較低的特征,統(tǒng)計(jì)標(biāo)簽內(nèi)字符數(shù)來(lái)判定是否為網(wǎng)頁(yè)正文,該抽取方式在實(shí)際應(yīng)用中依然存在著較大的偏差;三是基于視覺(jué)以及深度學(xué)習(xí)方式的網(wǎng)頁(yè)正文抽取,該方式主要是依賴于網(wǎng)頁(yè)正文獨(dú)特的含義特征、樣本數(shù)據(jù)量等條件,該抽取方式無(wú)法做到大規(guī)模的普遍應(yīng)用,對(duì)于多類型的網(wǎng)頁(yè)正文內(nèi)容難以實(shí)現(xiàn)通用性。
發(fā)明內(nèi)容
有鑒于此,本申請(qǐng)實(shí)施例提供了一種網(wǎng)頁(yè)正文抽取方法,運(yùn)用抽取模板標(biāo)簽對(duì)的方式獲取網(wǎng)頁(yè)內(nèi)容,能夠?qū)⒉煌Y(jié)構(gòu)網(wǎng)站中正文HTML標(biāo)簽統(tǒng)一,提高了普遍適用性,以及通過(guò)計(jì)算網(wǎng)頁(yè)正文判定閾值,能夠根據(jù)網(wǎng)頁(yè)正文判定閾值從網(wǎng)頁(yè)內(nèi)容中精準(zhǔn)的抽取出網(wǎng)頁(yè)正文段落,并將抽取的網(wǎng)頁(yè)正文段落添加至文本文件中進(jìn)行去重,有效避免了抽取網(wǎng)頁(yè)正文段落的冗余問(wèn)題,以及通過(guò)滑動(dòng)窗口算法,根據(jù)抽取模板中起始文本信息和結(jié)束文本信息陣列做線性滑動(dòng),有效提高了抽取效率。
第一方面,本申請(qǐng)實(shí)施例提供了一種網(wǎng)頁(yè)正文抽取方法,所述方法包括:
運(yùn)用正則表達(dá)式將網(wǎng)頁(yè)源碼中所有噪聲標(biāo)簽和腳本代碼進(jìn)行清洗,清洗后得到網(wǎng)頁(yè)內(nèi)容;
獲取所述網(wǎng)頁(yè)內(nèi)容對(duì)應(yīng)的抽取模板,所述抽取模板中包括至少一個(gè)起始文本信息和一個(gè)結(jié)束文本信息;
運(yùn)用遞歸算法逐一遍歷所述抽取模板中起始文本信息和結(jié)束文本信息,根據(jù)起始文本信息和結(jié)束文本信息從網(wǎng)頁(yè)內(nèi)容中抽取出網(wǎng)頁(yè)正文段落,將抽取的網(wǎng)頁(yè)正文段落添加至文本文件中;
計(jì)算網(wǎng)頁(yè)內(nèi)容中每個(gè)起始標(biāo)簽和結(jié)束標(biāo)簽之間網(wǎng)頁(yè)源碼的標(biāo)點(diǎn)符號(hào)數(shù)量與包含字符數(shù)量的最小商值,得到的最小商值作為網(wǎng)頁(yè)正文判定閾值;
采用滑動(dòng)窗口算法,根據(jù)所述抽取模板中起始文本信息和結(jié)束文本信息,確定標(biāo)簽滑動(dòng)窗口;
根據(jù)標(biāo)簽滑動(dòng)窗口遍歷網(wǎng)頁(yè)內(nèi)容中標(biāo)點(diǎn)符號(hào)數(shù)量與包含字符數(shù)量,抽取符合網(wǎng)頁(yè)正文判定閾值的網(wǎng)頁(yè)正文字段。
在一些實(shí)施例中,獲取所述網(wǎng)頁(yè)內(nèi)容對(duì)應(yīng)的抽取模板,所述抽取模板中包括至少一個(gè)起始文本信息和一個(gè)結(jié)束文本信息,包括:
將所述網(wǎng)頁(yè)內(nèi)容的標(biāo)簽中每個(gè)起始標(biāo)簽,通過(guò)正則表達(dá)式替換成對(duì)應(yīng)所述抽取模板的起始文本信息;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國(guó)電子信息產(chǎn)業(yè)集團(tuán)有限公司第六研究所,未經(jīng)中國(guó)電子信息產(chǎn)業(yè)集團(tuán)有限公司第六研究所許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110707708.0/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 一種搜索網(wǎng)頁(yè)的方法和裝置
- 網(wǎng)頁(yè)類型識(shí)別方法以及網(wǎng)頁(yè)類型識(shí)別裝置
- 網(wǎng)頁(yè)生成方法及網(wǎng)頁(yè)生成裝置
- 網(wǎng)頁(yè)修改方法及網(wǎng)頁(yè)修改裝置
- 網(wǎng)頁(yè)訪問(wèn)處理方法
- 獲取網(wǎng)頁(yè)信息方法和裝置
- 網(wǎng)頁(yè)資源的獲取方法、裝置及終端
- 一種網(wǎng)頁(yè)制作方法、系統(tǒng)、可讀存儲(chǔ)介質(zhì)及服務(wù)器
- 網(wǎng)頁(yè)安全處理方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 一種網(wǎng)頁(yè)同步的方法、系統(tǒng)
- 滾動(dòng)顯示控制
- 郵件數(shù)據(jù)下載的實(shí)現(xiàn)方法、客戶端、服務(wù)器及系統(tǒng)
- 移動(dòng)終端的郵件正文的顯示方法及裝置
- 網(wǎng)頁(yè)正文抽取方法及裝置
- word文檔的模塊化方法及系統(tǒng)
- 一種版式文檔正文碎片化的方法
- 標(biāo)題正文相關(guān)度的確定方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種基于正文節(jié)點(diǎn)特征的提取網(wǎng)頁(yè)正文的方法和系統(tǒng)
- 一種根據(jù)新建模板生成審批正文的方法及系統(tǒng)
- 網(wǎng)頁(yè)正文提取方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 一種數(shù)據(jù)庫(kù)讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





