[發明專利]信息過濾方法和裝置有效
| 申請號: | 201611154627.8 | 申請日: | 2016-12-14 |
| 公開(公告)號: | CN108228609B | 公開(公告)日: | 2021-03-30 |
| 發明(設計)人: | 馬慶麗 | 申請(專利權)人: | 北京國雙科技有限公司 |
| 主分類號: | G06F16/958 | 分類號: | G06F16/958;G06F16/957 |
| 代理公司: | 北京康信知識產權代理有限責任公司 11240 | 代理人: | 韓建偉;張永明 |
| 地址: | 100083 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 信息 過濾 方法 裝置 | ||
本發明公開了一種信息過濾方法和裝置。其中,該方法包括:獲取待展示的網絡平臺頁面中的內容;利用預先獲取的特征,對網絡平臺頁面中的內容進行過濾,得到網絡平臺頁面的主體內容,其中,特征用于表示網絡平臺頁面中轉換信息的特征,轉換信息用于標識由主體內容轉換為非主體內容;展示過濾得到的主體內容。本發明解決了無法有效過濾網絡平臺頁面的廣告的技術問題。
技術領域
本發明涉及信息處理領域,具體而言,涉及一種信息過濾方法和裝置。
背景技術
網絡平臺的頁面數據日益成為網絡信息資源的重要數據源,在網絡平臺頁面的文章中添加廣告也成為各個公司的重要營銷手段,因此在網絡平臺頁面的內容中添加廣告的現象越來越多,然而大量的廣告信息嚴重干擾對正文內容信息的挖掘,為采集、分析網絡平臺頁面數據以及獲取網絡平臺頁面有效信息帶來了一定困難,目前過濾網絡平臺頁面文章廣告的方案主要是依據過濾一般網頁無用信息的方案,即使用正則表達式、Xpath(即XML路徑語言)或Css Selector(即CSS選擇器)提取頁面元素進行過濾,現有技術中通過分析網頁HTML代碼,對頁面重要標簽進行分析,通過正則表達式或其它手段提取信息,或者通過為頁面建立DOM樹(通過DOM將HTML頁面進行解析,并生成的HTML tree樹狀結構和對應訪問方法),通過XPath或者CssSelector選取網頁元素,選取包含網絡平臺頁面的文章內容的標簽,提取正文內容,從而達到過濾的目標,但是基于網頁標簽的提取方法,適用性差,往往只能針對一類頁面進行信息提取,頁面如果有變化會導致提取錯誤或者提取失敗。
針對上述無法有效過濾網絡平臺的頁面的廣告的問題,目前尚未提出有效的解決方案。
發明內容
本發明實施例提供了一種信息過濾方法和裝置,以至少解決無法有效過濾網絡平臺頁面的廣告的技術問題。
根據本發明實施例的一個方面,提供了一種信息過濾方法,包括:獲取待展示的網絡平臺頁面中的內容;利用預先獲取的特征,對所述網絡平臺頁面中的內容進行過濾,得到所述網絡平臺頁面的主體內容,其中,所述特征用于表示所述網絡平臺頁面中轉換信息的特征,所述轉換信息用于標識由主體內容轉換為非主體內容;展示過濾得到的所述主體內容。
進一步地,利用預先獲取的特征,對所述網絡平臺頁面中的內容進行過濾,得到所述網絡平臺頁面的主體內容包括:對所述網絡平臺頁面進行深度優先搜索;在搜索到所述特征的情況下,獲取從搜索的起始點到搜索到所述特征的特征點之間的內容確定為所述網頁頁面平臺的主體內容,過濾掉所述特征點之后的內容,其中,所述轉換信息包括所述主體內容的結束信息,或所述非主體內容的開始信息。
進一步地,所述轉換信息包括所述主體內容的結束信息,或所述非主體內容的開始信息。
進一步地,對所述網絡平臺頁面進行深度優先搜索包括:解析所述網絡平臺頁面,得到所述網絡平臺頁面的頁面結點樹;從所述頁面結點樹的根節點開始,對所述頁面結點樹中的各個結點進行深度優先搜索。
進一步地,所述起始點為所述頁面節點樹的根結點,其中,獲取從搜索的起始點到搜索到所述特征的特征點之間的內容確定為所述網絡平臺頁面的主體內容,過濾掉所述特征點之后的內容包括:在執行所述深度優先搜索的過程中,若未搜索到所述特征,則將搜索過的結點對應的內容追加入主體內容中;若搜索到所述特征,記錄搜索到所述特征的特征點,停止追加所述主體內容,并將所述頁面結點樹中未搜索過的結點對應的內容過濾掉。
進一步地,在對所述網絡平臺頁面中的內容進行過濾之前,所述方法還包括:獲取多個網絡平臺頁面;從所述多個網絡平臺頁面中提取轉換信息,其中,所述轉換信息用于標識由主體內容轉換為非主體內容;基于提取到的轉換信息,生成所述特征。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京國雙科技有限公司,未經北京國雙科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611154627.8/2.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





