[發明專利]一種數據過濾方法及裝置有效
| 申請號: | 201611248840.5 | 申請日: | 2016-12-29 |
| 公開(公告)號: | CN106649831B | 公開(公告)日: | 2020-09-04 |
| 發明(設計)人: | 張曉明;陳永環;張迪;趙沖翔 | 申請(專利權)人: | 北京奇藝世紀科技有限公司 |
| 主分類號: | G06F16/9535 | 分類號: | G06F16/9535;G06F16/9536;G06F16/735 |
| 代理公司: | 北京柏杉松知識產權代理事務所(普通合伙) 11413 | 代理人: | 項京;馬敬 |
| 地址: | 100080 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 數據 過濾 方法 裝置 | ||
1.一種數據過濾方法,其特征在于,包括:
獲得待過濾數據;
為所述待過濾數據中的每一條數據的各個字段分配標識,所述標識用于區分不同類型的字段,同一類型的字段為相同的標識;
根據所述待過濾數據中的每一條數據的各個字段,實時生成識別特征,所述識別特征包括字段和字段的標識,所述識別特征用于識別所述待過濾數據中需要過濾掉的數據;
將所述識別特征中所有的字段,作為實時黑名單,并將所述實時黑名單保存至預設數據庫中;
對所述待過濾數據進行多次過濾,所述多次過濾中至少包括一次實時黑名單過濾方式,所述實時黑名單過濾方式為根據實時生成的所述識別特征,過濾所述待過濾數據;
所述實時黑名單過濾方式,包括:
根據所述識別特征中所有的字段的標識,獲得所述待過濾數據中,含有所述標識對應的字段的數據;
將所述數據與所述預設數據庫中所述黑名單中的字段進行匹配;
當所述數據中,包含有所述黑名單中的字段時,舍棄所述數據。
2.根據權利要求1所述的方法,其特征在于,所述獲得待過濾數據,包括:
獲得原始數據;
通過適配器將所述原始數據格式化,獲得所述待過濾數據;
其中,所述適配器,包括:預設適配器和自定義適配器,所述自定義適配器為通過第三方接口,應用類加載器和Java反射機制,注冊的自定義適配器。
3.根據權利要求1或2所述的方法,其特征在于,所述根據所述待過濾數據中的每一條數據的各個字段,實時生成識別特征,包括:
檢測所述待過濾數據中的每一條數據的各個字段,在一個或多個預設時間段內的出現頻率;
當所述一個或多個字段在任意一個預設時間段內的出現頻率,大于或等于針對所述預設時間段預設的閾值時,將所述一個或多個字段和所述一個或多個字段的標識,作為所述識別特征。
4.根據權利要求3所述的方法,其特征在于,所述檢測所述待過濾數據中的每一條數據的各個字段,在一個或多個預設時間段內的出現頻率,包括:
并行檢測所述待過濾數據中的每一條數據的各個字段,在不同的預設時間段內的出現頻率。
5.根據權利要求1所述的方法,其特征在于,所述對所述待過濾數據進行多次過濾,包括:
以第N層過濾方式對所述待過濾數據過濾進行過濾,得到第N層過濾結果,所述第N層過濾方式為實時黑名單過濾、規則表達式過濾、數據字典過濾、離線黑名單過濾及第三方黑名單過濾中的一種方式;
以第N+1層過濾方式對所述第N層過濾結果進行過濾,得到第N+1層過濾結果,所述第N+1層過濾方式為實時黑名單過濾、規則表達式過濾、數據字典過濾、離線黑名單過濾及第三方黑名單過濾中的一種方式,且與所述第N層過濾方式不同;
其中,所述N為大于或等于1的自然數;
所述規則表達式過濾方式為當所述待過濾數據中的數據不滿足預設的正則表達式或客戶端腳本語言表達式時,舍棄所述數據;
所述數據字典過濾方式為當所述待過濾數據中的數據,不滿足數據字典中的數據范圍時,舍棄所述數據;
所述離線黑名單過濾方式為獲得離線識別特征,將所述待過濾數據中的數據逐條匹配所述離線識別特征,當所述待過濾數據中的數據滿足所述離線識別特征,舍棄所述數據;
所述第三方黑名單過濾方式為獲得第三方識別特征,將所述待過濾數據中的數據逐條匹配所述第三方識別特征,當所述待過濾數據中的數據滿足所述第三方識別特征,舍棄所述數據。
6.根據權利要求5所述的方法,其特征在于,所述方法還包括:
監測每一層過濾方式之前所述待過濾數據的第一數據量;
監測所述每一層過濾方式之后的過濾結果的第二數據量;
獲得所述第一數據量和所述第二數據量的數據量差值;
根據所述數據量差值,判斷每一層過濾方式的過濾效率。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京奇藝世紀科技有限公司,未經北京奇藝世紀科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611248840.5/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種信息展示方法和裝置
- 下一篇:一種基于缺失數據的預估方法及裝置
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





