[發明專利]一種網頁內容提取的方法及裝置在審
| 申請號: | 201911388946.9 | 申請日: | 2019-12-30 |
| 公開(公告)號: | CN111046302A | 公開(公告)日: | 2020-04-21 |
| 發明(設計)人: | 孫瑞娟 | 申請(專利權)人: | 珠海趣印科技有限公司 |
| 主分類號: | G06F16/9536 | 分類號: | G06F16/9536;G06F16/957 |
| 代理公司: | 廣州三環專利商標代理有限公司 44202 | 代理人: | 盧澤明 |
| 地址: | 519000 廣東省珠海市橫琴新*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 網頁 內容 提取 方法 裝置 | ||
1.一種網頁內容提取方法,其特征在于,所述方法包括如下步驟,
獲取網頁HTML源代碼;
將HTML源代碼進行過濾;
對過濾后的內容進行重構;
生成正文,完成網頁內容的提取。
2.如權利要求1所述的一種網頁內容提取方法,其特征在于,所述將HTML源代碼進行過濾,具體為:提取HTML代碼中body標簽內容;解析提取后的內容,在內容中查找非文本標簽并輸出為標簽列表,遍歷標簽列表,針對標簽執行刪除操作,刪除標簽。
3.如權利要求2所述的一種網頁內容提取方法,其特征在于,所述非文本標簽為img標簽。
4.如權利要求1所述的一種網頁內容提取方法,其特征在于,所述對過濾后的內容進行重構之后,還包括:
聚類正文內容。
5.如權利要求4所述的一種網頁內容提取方法,其特征在于,所述聚類正文內容,具體為:
利用HTML語言中的常用標簽對網頁的各個板塊進行分隔,將文本劃分成若干個段落集合,對所述段落集合進行聚類分析,將段落中文字最多的段落當做聚類中心,獲取該所述聚類中心的標簽以及標簽的屬性作為段落的特征,根據所述特征,分別向所述聚類中心的前后聚類含有所述特征的段落,形成正文內容,提取所述正文內容。
6.一種包含網頁內容提取方法的裝置,其特征在于,包括存儲器、控制中心、網絡模塊,所述存儲器存儲權利要求1到5中任一項所述的一種網頁內容提取方法的指令,所述控制中心調取所述存儲器內指令執行。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于珠海趣印科技有限公司,未經珠海趣印科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911388946.9/1.html,轉載請聲明來源鉆瓜專利網。
- 內容再現系統、內容提供方法、內容再現裝置、內容提供裝置、內容再現程序和內容提供程序
- 內容記錄系統、內容記錄方法、內容記錄設備和內容接收設備
- 內容服務系統、內容服務器、內容終端及內容服務方法
- 內容分發系統、內容分發裝置、內容再生終端及內容分發方法
- 內容發布、內容獲取的方法、內容發布裝置及內容傳播系統
- 內容提供裝置、內容提供方法、內容再現裝置、內容再現方法
- 內容傳輸設備、內容傳輸方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容發送設備、內容發送方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容再現裝置、內容再現方法、內容再現程序及內容提供系統
- 內容記錄裝置、內容編輯裝置、內容再生裝置、內容記錄方法、內容編輯方法、以及內容再生方法





