[發(fā)明專利]一種網(wǎng)頁內(nèi)容抽取的方法在審
| 申請?zhí)枺?/td> | 201711392836.0 | 申請日: | 2017-12-14 |
| 公開(公告)號: | CN108132919A | 公開(公告)日: | 2018-06-08 |
| 發(fā)明(設(shè)計)人: | 郭國慶;翟建強 | 申請(專利權(quán))人: | 寧波升維信息技術(shù)有限公司 |
| 主分類號: | G06F17/22 | 分類號: | G06F17/22;G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 315010 浙江省寧波*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 網(wǎng)頁標題 網(wǎng)頁內(nèi)容 抽取 網(wǎng)頁元素 樹結(jié)構(gòu) 文檔 網(wǎng)頁 文本塊 信息技術(shù)領(lǐng)域 新聞發(fā)布 新聞來源 頁面導(dǎo)航 正文文本 網(wǎng)站 字數(shù) 標簽 轉(zhuǎn)換 | ||
1.一種網(wǎng)頁內(nèi)容抽取的方法,其特征在于,包括:將超文本標記語言HTML源碼轉(zhuǎn)換為對應(yīng)的文檔樹結(jié)構(gòu),并根據(jù)所述文檔樹結(jié)構(gòu)的標題TITLE標簽,確定網(wǎng)頁標題;根據(jù)所述網(wǎng)頁標題,確定網(wǎng)頁中的網(wǎng)頁元素,所述網(wǎng)頁元素至少包括網(wǎng)站商標LOGO、頁面導(dǎo)航、新聞發(fā)布時間、新聞來源;根據(jù)所述網(wǎng)頁標題,以及所述文檔樹結(jié)構(gòu)的文本塊的密度和文字數(shù),確定各個文本塊的屬性,所述文本塊的屬性包括所述文本塊的網(wǎng)頁內(nèi)容為正文,或者所述文本塊的網(wǎng)頁內(nèi)容非正文;抽取所述網(wǎng)頁標題、所述網(wǎng)頁元素以及所述網(wǎng)頁內(nèi)容為正文的正文文本塊,獲取網(wǎng)頁全文。
2.根據(jù)權(quán)利要求1所述網(wǎng)頁內(nèi)容抽取的方法,其特征在于,文本塊的密度包括文字密度和鏈接密度;所述根據(jù)所述網(wǎng)頁標題,以及所述文檔樹結(jié)構(gòu)的文本塊的密度和文字數(shù),確定各個文本塊的屬性包括:根據(jù)所述文檔樹結(jié)構(gòu)的文本塊的文字密度、鏈接密度和文字數(shù),確定當前文本塊的網(wǎng)頁內(nèi)容為正文或者非正文;根據(jù)所述網(wǎng)頁標題,確定所述網(wǎng)頁標題之前的網(wǎng)頁內(nèi)容為非正文;根據(jù)所述文檔樹結(jié)構(gòu)的文本塊中包含的網(wǎng)頁正文結(jié)束特征詞,確定包含所述特征詞的文本塊之后的網(wǎng)頁內(nèi)容為非正文。
3.根據(jù)權(quán)利要求2所述網(wǎng)頁內(nèi)容抽取的方法,其特征在于,所述根據(jù)所述文檔樹結(jié)構(gòu)的文本塊的文字密度、鏈接密度和文字數(shù),確定當前文本塊的網(wǎng)頁內(nèi)容為正文或者非正文包括:判斷所述當前文本塊的文字密度是否大于等于文字密度下限值;當所述當前文本塊的文字密度大于等于漢字密度下限值時,判斷所述當前文本塊的鏈接文字密度是否小于第一鏈接文字密度上限值;當所述當前文本塊的鏈接文字密度小于所述第一鏈接文字密度上限值時,判斷前一個文本塊中鏈接文字密度是否小于第二鏈接文字密度上限值;當所述前一個文本塊中連接文字密度小于所述第二鏈接文字密度上限值時,判斷所述當前文本塊的文字數(shù)是否小于第一文字數(shù)下限值;當所述當前文本塊的文字數(shù)小于所述第一文字數(shù)下限值時,判斷后一個文本塊的文字數(shù)是否小于第二文字數(shù)下限值;當所述后一個文本塊的文字數(shù)小于所述第二文字數(shù)下限值時,判斷所述前一個文本塊的文字數(shù)是否小于第三文字數(shù)下限值;當所述前一個文本塊的文字數(shù)小于所述第三文字數(shù)下限值時,確定所述當前文本塊的網(wǎng)頁內(nèi)容為非正文;當所述前一個文本塊的文字數(shù)大于等于所述第三文字數(shù)下限值時,確定所述當前文本塊的網(wǎng)頁內(nèi)容為正文。
4.根據(jù)權(quán)利要求3所述網(wǎng)頁內(nèi)容抽取的方法,其特征在于,當所述當前文本塊的文字密度小于漢字密度下限值時,確定所述當前文本塊的網(wǎng)頁內(nèi)容為非正文。
5.根據(jù)權(quán)利要求3所述網(wǎng)頁內(nèi)容抽取的方法,其特征在于,當所述當前文本塊的鏈接文字密度大于等于所述第一鏈接文字密度上限值時,并且當所述前一個文本塊的網(wǎng)頁內(nèi)容為正文時,判斷所述當前文本塊中鏈接的文字數(shù)的平均值是否小于文字數(shù)上限值;當所述當前文本塊中鏈接的文字數(shù)的平均值小于文字數(shù)上限值時,確定所述當前文本塊的網(wǎng)頁內(nèi)容為正文;當所述當前文本塊中鏈接的文字數(shù)的平均值大于等于文字數(shù)上限值時,確定所述當前文本塊的網(wǎng)頁內(nèi)容為非正文。
6.根據(jù)權(quán)利要求3所述網(wǎng)頁內(nèi)容抽取的方法,其特征在于,當所述當前文本塊的鏈接文字密度大于等于所述第一鏈接文字密度上限值時,判斷所述當前文本塊的文字數(shù)是否小于等于第四文字數(shù)下限值;當所述當前文本塊的文字數(shù)大于所述第四文字數(shù)下限值時,確定所述當前文本塊的網(wǎng)頁內(nèi)容為正文;當所述當前文本塊的文字數(shù)小于等于所述第四文字數(shù)下限值時,判斷所述前一個文本塊或者所述后一個文本塊的文字數(shù)是否小于等于第五文字數(shù)下限值;當所述前一個文本塊或者后一個文本塊的文字數(shù)小于等于所述第五文字數(shù)下限值時,確定所述當前文本塊的網(wǎng)頁內(nèi)容為非正文;當所述前一個文本塊或者后一個文本塊的文字數(shù)大于所述第五文字數(shù)下限值時,確定所述當前文本塊的網(wǎng)頁內(nèi)容為正文。
7.根據(jù)權(quán)利要求3所述網(wǎng)頁內(nèi)容抽取的方法,其特征在于,當所述當前文本塊的文字數(shù)大于等于所述第一文字數(shù)下限值時,確定所述當前文本塊的網(wǎng)頁內(nèi)容為正文。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于寧波升維信息技術(shù)有限公司,未經(jīng)寧波升維信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711392836.0/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





