[發明專利]一種網頁內容抽取的方法在審
| 申請號: | 201711392836.0 | 申請日: | 2017-12-14 |
| 公開(公告)號: | CN108132919A | 公開(公告)日: | 2018-06-08 |
| 發明(設計)人: | 郭國慶;翟建強 | 申請(專利權)人: | 寧波升維信息技術有限公司 |
| 主分類號: | G06F17/22 | 分類號: | G06F17/22;G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 315010 浙江省寧波*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 網頁標題 網頁內容 抽取 網頁元素 樹結構 文檔 網頁 文本塊 信息技術領域 新聞發布 新聞來源 頁面導航 正文文本 網站 字數 標簽 轉換 | ||
本發明公開一種網頁內容抽取的方法,涉及信息技術領域,可以在進行網頁內容抽取時,準確抽取網頁標題以及網頁中各個元素。本發明通過將HTML源碼轉換為對應的文檔樹結構,并根據文檔樹結構的TITLE標簽,確定網頁標題;根據網頁標題,確定網頁中的網頁元素,網頁元素至少包括網站LOGO、頁面導航、新聞發布時間、新聞來源;根據網頁標題,以及文檔樹結構的文本塊的密度和文字數,確定各個文本塊的屬性;抽取所述網頁標題、所述網頁元素以及所述網頁內容為正文的正文文本塊,獲取網頁全文。本發明提供的方案適于進行網頁內容抽取時采用。
技術領域
本發明涉及信息技術領域,尤其涉及一種網頁內容抽取的方法。
背景技術
通過SAX解析器將網頁源碼中表示文本區域的<P>標簽、<Hn>標簽、<a>標簽、<DIV>標簽等標簽中的內容解析為多個文本塊,并計算各個文本塊中的預設指標,判斷此文本塊的內容是否可以作為正文,其中,預設指標可以包括單詞數、超鏈接密度等指標。例如,當前文本塊的鏈接密度小于等于0.333333,并且前一文本塊的鏈接密度小于等于0.555556,并且當前文本塊的單詞數小于等于16,并且下一文本塊的單詞數小于等于14,并且前一文本塊的單詞數大于4時,當前文本塊能作為正文;前面條件不變,最后一個條件為:前一文本塊的單詞數小于等于4時,當前文本塊不能作為正文。
然而,當采用現有技術進行網頁內容抽取時,網頁標題抽取不準確,網頁各個元素抽取不全面等問題,導致網頁正文抽取不準確。
發明內容
本發明的實施例提供一種網頁內容抽取的方法,可以在進行網頁內容抽取時,準確抽取網頁標題以及網頁中各個元素。
本發明提供一種網頁內容抽取的方法,包括:將HTML源碼轉換為對應的文檔樹結構,并根據所述文檔樹結構的TITLE標簽,確定網頁標題;根據所述網頁標題,確定網頁中的網頁元素,所述網頁元素至少包括網站LOGO、頁面導航、新聞發布時間、新聞來源;根據所述網頁標題,以及所述文檔樹結構的文本塊的密度和文字數,確定各個文本塊的屬性,所述文本塊的屬性包括所述文本塊的網頁內容為正文,或者所述文本塊的網頁內容非正文;抽取所述網頁標題、所述網頁元素以及所述網頁內容為正文的正文文本塊,獲取網頁全文。
本發明實施例提供一種網頁內容抽取的方法,通過將HTML源碼轉換為對應的文檔樹結構,并根據所述文檔樹結構的TITLE標簽,確定網頁標題;根據所述網頁標題,確定網頁中的網頁元素,所述網頁元素至少包括網站LOGO、頁面導航、新聞發布時間、新聞來源;根據所述網頁標題,以及所述文檔樹結構的文本塊的密度和文字數,確定各個文本塊的屬性,所述文本塊的屬性包括所述文本塊的網頁內容為正文,或者所述文本塊的網頁內容非正文;抽取所述網頁標題、所述網頁元素以及所述網頁內容為正文的正文文本塊,獲取網頁全文。
與現有技術中進行網頁內容抽取時,網頁標題抽取不準確,網頁各個元素抽取不全面等問題,導致網頁正文抽取不準確相比,本發明實施例通過TITLE標簽,確定網頁標題,再根據網頁標題確定網頁其他元素,例如網站LOGO、頁面導航、新聞發布時間、新聞來源等,使得在進行網頁內容抽取時,準確抽取網頁標題以及網頁中各個元素。
附圖說明
圖1為本發明實施例提供的一種網頁內容抽取的方法的流程圖;
圖2為本發明實施例提供的另一種網頁內容抽取的方法的流程圖;
圖3為本發明實施例提供的一種確定當前文本塊的網頁內容為正文或者非正文的方法的流程圖。
具體實施方式
下面將結合本發明實施例中附圖,對本發明實施例中的技術方案進行清楚、完整地描述。
本發明實施例提供一種網頁內容抽取的方法,如圖1所示,該方法包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于寧波升維信息技術有限公司,未經寧波升維信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711392836.0/2.html,轉載請聲明來源鉆瓜專利網。





