[發明專利]一種網頁內容提取的方法及裝置在審
| 申請號: | 201911388946.9 | 申請日: | 2019-12-30 |
| 公開(公告)號: | CN111046302A | 公開(公告)日: | 2020-04-21 |
| 發明(設計)人: | 孫瑞娟 | 申請(專利權)人: | 珠海趣印科技有限公司 |
| 主分類號: | G06F16/9536 | 分類號: | G06F16/9536;G06F16/957 |
| 代理公司: | 廣州三環專利商標代理有限公司 44202 | 代理人: | 盧澤明 |
| 地址: | 519000 廣東省珠海市橫琴新*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 網頁 內容 提取 方法 裝置 | ||
本發明提供一種網頁內容提取的方法及裝置,涉及網頁內容提取技術領域,尤其涉及網頁內容提取的方法及裝置,包括如下步驟,獲取網頁HTML源代碼;將HTML源代碼進行過濾;對過濾后的內容進行重構;生成正文,完成網頁內容的提取。優選地,所述對過濾后的內容進行重構之后,還包括:聚類正文內容。通過本發明,對于簡單網頁,能夠快速提取網頁相關內容,增加效率。對于復雜網頁,能夠提高網頁內容提取準確性,從而達到高效,準確地提取網頁內容。
技術領域
本發明涉及網頁內容提取技術領域,尤其涉及網頁內容提取的方法及裝置。
背景技術
隨著互聯網的普及,越來越多的用戶選擇電腦、手機、平板等介質獲取信息,但是由于網頁的多樣性,用戶在查看相關信息的同時,網頁會自動帶出很多無關的內容,其中還充斥著很多惡意彈窗以及病毒,大大地減弱了用戶的體驗度以及使用方便度,如何使用戶聚焦于其關心的內容上,將核心內容抓取出來進行顯示,成為了本發明研究的關鍵問題。
目前,網頁內容提取的方法有基于規則算法進行網頁內容提取,通過規則算法,匹配對應內容進行提取,由于每個網站的結構、內容都不相同,所以規則算法的設計也較為復雜,同時降低了使用效率,在復雜的網頁中也容易產生提取錯誤的情況。
因此,需要一種通用的、簡單的網頁內容提取方法。
發明內容
本發明的目的在于提供一種網頁內容提取的方法及裝置,以解決現有技術中存在的前述問題。本發明的目的由以下技術方案實現:
一種網頁內容提取方法,方法包括如下步驟,
獲取網頁HTML源代碼;
將HTML源代碼進行過濾;
對過濾后的內容進行重構;
生成正文,完成網頁內容的提取。
其中,所述將HTML源代碼進行過濾,具體為:提取HTML代碼中body標簽內容;解析提取后的內容,在內容中查找非文本標簽并輸出為標簽列表,遍歷標簽列表,針對標簽執行刪除操作,刪除標簽。
其中,所述非文本標簽為img標簽。
優選地,所述對過濾后的內容進行重構之后,還包括:聚類正文內容。
其中,所述聚類正文內容,具體為:利用HTML語言中常用div、form等標簽對網頁的各個板塊進行分隔,將文本劃分成若干個段落集合,對所述段落集合進行聚類分析,將段落中文字最多的段落當做聚類中心,獲取該所述聚類中心的標簽以及標簽的屬性作為段落的特征,根據所述特征,分別向所述聚類中心的前后聚類含有所述特征的段落,形成正文內容,提取所述正文內容。
一種包含網頁內容提取方法的裝置,包括存儲器、控制中心、網絡模塊,所述存儲器存儲權利要求上述的一種網頁內容提取方法的指令,所述控制中心調取所述存儲器內指令執行。
通過本發明,對于簡單網頁,能夠快速提取網頁相關內容,增加效率。對于復雜網頁,能夠提高網頁內容提取準確性,從而達到高效,準確地提取網頁內容。
附圖說明
圖1為本發明一種網頁內容提取的方法的流程圖。
圖2為本發明一種實施例中將HTML源代碼進行過濾的流程圖。
圖3為本發明一種實施例中對過濾后的內容進行重構的流程圖。
圖4為本發明一種實施例中聚類正文內容的流程圖。
圖5為本發明一種包含網頁內容提取方法的裝置的結構示意圖。
具體實施方式
下面結合附圖對本發明進行詳細闡述。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于珠海趣印科技有限公司,未經珠海趣印科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911388946.9/2.html,轉載請聲明來源鉆瓜專利網。
- 內容再現系統、內容提供方法、內容再現裝置、內容提供裝置、內容再現程序和內容提供程序
- 內容記錄系統、內容記錄方法、內容記錄設備和內容接收設備
- 內容服務系統、內容服務器、內容終端及內容服務方法
- 內容分發系統、內容分發裝置、內容再生終端及內容分發方法
- 內容發布、內容獲取的方法、內容發布裝置及內容傳播系統
- 內容提供裝置、內容提供方法、內容再現裝置、內容再現方法
- 內容傳輸設備、內容傳輸方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容發送設備、內容發送方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容再現裝置、內容再現方法、內容再現程序及內容提供系統
- 內容記錄裝置、內容編輯裝置、內容再生裝置、內容記錄方法、內容編輯方法、以及內容再生方法





