[發(fā)明專利]一種網(wǎng)頁內(nèi)容處理方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)有效
| 申請?zhí)枺?/td> | 201810381738.5 | 申請日: | 2018-04-25 |
| 公開(公告)號: | CN108628977B | 公開(公告)日: | 2021-03-16 |
| 發(fā)明(設(shè)計(jì))人: | 周寶成 | 申請(專利權(quán))人: | 咪咕文化科技有限公司;中國移動(dòng)通信集團(tuán)有限公司 |
| 主分類號: | G06F16/957 | 分類號: | G06F16/957;G06F16/958 |
| 代理公司: | 北京派特恩知識(shí)產(chǎn)權(quán)代理有限公司 11270 | 代理人: | 張榮;張穎玲 |
| 地址: | 100032 北京市西城區(qū)德*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 網(wǎng)頁 內(nèi)容 處理 方法 裝置 計(jì)算機(jī) 可讀 存儲(chǔ) 介質(zhì) | ||
本發(fā)明公開了一種網(wǎng)頁內(nèi)容處理方法,包括:對網(wǎng)頁進(jìn)行解析,得到網(wǎng)頁的樹狀結(jié)構(gòu);樹狀結(jié)構(gòu)中的每個(gè)節(jié)點(diǎn)分別對應(yīng)一個(gè)數(shù)據(jù)塊;針對每個(gè)節(jié)點(diǎn),確定節(jié)點(diǎn)在所述樹狀結(jié)構(gòu)中對應(yīng)的位置;并基于確定的位置,利用對應(yīng)的分類方法,識(shí)別對應(yīng)節(jié)點(diǎn)的主題;從識(shí)別的所有主題中,確定滿足預(yù)設(shè)條件的主題;輸出確定的主題對應(yīng)節(jié)點(diǎn)的網(wǎng)頁內(nèi)容。本發(fā)明還同時(shí)公開了一種網(wǎng)頁內(nèi)容處理裝置以及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。
技術(shù)領(lǐng)域
本發(fā)明涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,尤其涉及一種網(wǎng)頁內(nèi)容處理方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。
背景技術(shù)
目前,隨著數(shù)據(jù)量急劇增大以及數(shù)據(jù)挖掘技術(shù)的快速發(fā)展,在大數(shù)據(jù)開發(fā)中,從網(wǎng)頁中提取特定主題的網(wǎng)頁內(nèi)容的需求越來越多,所述特定主題的網(wǎng)頁內(nèi)容為用于描述某一主題的信息數(shù)據(jù),比如某個(gè)人物的簡介信息。
目前,在提取特定主題的網(wǎng)頁內(nèi)容時(shí),按照網(wǎng)頁頁面的編輯格式來區(qū)分不同主題的網(wǎng)頁內(nèi)容。比如,可以將編輯格式或超文本標(biāo)記語言(HTML,Hyper Text MarkupLanguage)標(biāo)簽相同的網(wǎng)頁內(nèi)容視為同一主題的網(wǎng)頁內(nèi)容。
但是,由于相同主題的網(wǎng)頁內(nèi)容可能采用不同的HTML語言描述,這對提取特定主題的網(wǎng)頁內(nèi)容,容易造成誤提取、漏提取的情況發(fā)生。
因此亟需找到一種準(zhǔn)確提取特定主題的網(wǎng)頁內(nèi)容的技術(shù)方案。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明實(shí)施例期望提供一種網(wǎng)頁內(nèi)容處理方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),能夠準(zhǔn)確提取特定主題的網(wǎng)頁內(nèi)容。
本發(fā)明實(shí)施例的技術(shù)方案是這樣實(shí)現(xiàn)的:
本發(fā)明實(shí)施例提供一種網(wǎng)頁內(nèi)容處理方法,所述方法包括:
對網(wǎng)頁進(jìn)行解析,得到網(wǎng)頁的樹狀結(jié)構(gòu);樹狀結(jié)構(gòu)中的每個(gè)節(jié)點(diǎn)分別對應(yīng)一個(gè)數(shù)據(jù)塊;
針對每個(gè)節(jié)點(diǎn),確定節(jié)點(diǎn)在所述樹狀結(jié)構(gòu)中對應(yīng)的位置;并基于確定的位置,利用對應(yīng)的分類方法,識(shí)別對應(yīng)節(jié)點(diǎn)的主題;
從識(shí)別的所有主題中,確定滿足預(yù)設(shè)條件的主題;
輸出確定的主題對應(yīng)節(jié)點(diǎn)的網(wǎng)頁內(nèi)容。
上述方案中,所述基于確定的位置,利用對應(yīng)的分類方法,識(shí)別對應(yīng)數(shù)據(jù)塊的網(wǎng)頁內(nèi)容的主題,包括:
針對確定的樹狀結(jié)構(gòu)中的第一節(jié)點(diǎn),對所述第一節(jié)點(diǎn)的文檔信息進(jìn)行分析,確定對應(yīng)所述第一節(jié)點(diǎn)的主題;所述第一節(jié)點(diǎn)為終端節(jié)點(diǎn);
針對確定的樹狀結(jié)構(gòu)中的第二節(jié)點(diǎn),將所述第二節(jié)點(diǎn)對應(yīng)的子節(jié)點(diǎn)的主題進(jìn)行合并,得到對應(yīng)所述第二節(jié)點(diǎn)的主題;所述第二節(jié)點(diǎn)為非終端節(jié)點(diǎn)。
上述方案中,所述方法還包括:
針對未知主題節(jié)點(diǎn),采用以下方式之一識(shí)別未知主題節(jié)點(diǎn)的主題:
基于預(yù)設(shè)主題模型,根據(jù)與未知主題節(jié)點(diǎn)相鄰的節(jié)點(diǎn)的主題,確定相鄰的節(jié)點(diǎn)的主題轉(zhuǎn)移至預(yù)設(shè)主題的概率,利用確定的概率,識(shí)別未知主題節(jié)點(diǎn)的主題;
基于節(jié)點(diǎn)在所述樹狀結(jié)構(gòu)中的等級關(guān)系,識(shí)別未知主題節(jié)點(diǎn)的主題;
其中,所述未知主題節(jié)點(diǎn)為第一節(jié)點(diǎn)中未識(shí)別出主題的節(jié)點(diǎn)。
上述方案中,所述基于預(yù)設(shè)主題模型,根據(jù)與未知主題節(jié)點(diǎn)相鄰的節(jié)點(diǎn)的主題,確定相鄰的節(jié)點(diǎn)的主題轉(zhuǎn)移至預(yù)設(shè)主題的概率,利用確定的概率,識(shí)別未知主題節(jié)點(diǎn)的主題,包括:
利用所述樹狀結(jié)構(gòu),確定與未知主題節(jié)點(diǎn)相鄰的至少一個(gè)節(jié)點(diǎn);
利用所述未知主題節(jié)點(diǎn)以及相鄰的至少一個(gè)節(jié)點(diǎn),構(gòu)建馬爾科夫鏈;
根據(jù)所述未知主題節(jié)點(diǎn)在所述馬爾科夫鏈中的位置,以及與未知主題節(jié)點(diǎn)相鄰的節(jié)點(diǎn)的主題,利用預(yù)設(shè)主題模型,確定相鄰的節(jié)點(diǎn)的主題轉(zhuǎn)移至預(yù)設(shè)主題的概率;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于咪咕文化科技有限公司;中國移動(dòng)通信集團(tuán)有限公司,未經(jīng)咪咕文化科技有限公司;中國移動(dòng)通信集團(tuán)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810381738.5/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 內(nèi)容再現(xiàn)系統(tǒng)、內(nèi)容提供方法、內(nèi)容再現(xiàn)裝置、內(nèi)容提供裝置、內(nèi)容再現(xiàn)程序和內(nèi)容提供程序
- 內(nèi)容記錄系統(tǒng)、內(nèi)容記錄方法、內(nèi)容記錄設(shè)備和內(nèi)容接收設(shè)備
- 內(nèi)容服務(wù)系統(tǒng)、內(nèi)容服務(wù)器、內(nèi)容終端及內(nèi)容服務(wù)方法
- 內(nèi)容分發(fā)系統(tǒng)、內(nèi)容分發(fā)裝置、內(nèi)容再生終端及內(nèi)容分發(fā)方法
- 內(nèi)容發(fā)布、內(nèi)容獲取的方法、內(nèi)容發(fā)布裝置及內(nèi)容傳播系統(tǒng)
- 內(nèi)容提供裝置、內(nèi)容提供方法、內(nèi)容再現(xiàn)裝置、內(nèi)容再現(xiàn)方法
- 內(nèi)容傳輸設(shè)備、內(nèi)容傳輸方法、內(nèi)容再現(xiàn)設(shè)備、內(nèi)容再現(xiàn)方法、程序及內(nèi)容分發(fā)系統(tǒng)
- 內(nèi)容發(fā)送設(shè)備、內(nèi)容發(fā)送方法、內(nèi)容再現(xiàn)設(shè)備、內(nèi)容再現(xiàn)方法、程序及內(nèi)容分發(fā)系統(tǒng)
- 內(nèi)容再現(xiàn)裝置、內(nèi)容再現(xiàn)方法、內(nèi)容再現(xiàn)程序及內(nèi)容提供系統(tǒng)
- 內(nèi)容記錄裝置、內(nèi)容編輯裝置、內(nèi)容再生裝置、內(nèi)容記錄方法、內(nèi)容編輯方法、以及內(nèi)容再生方法
- 一種數(shù)據(jù)庫讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測試終端的測試方法
- 一種服裝用人體測量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





