[發明專利]數據過濾方法在審
| 申請號: | 201710509189.0 | 申請日: | 2017-06-28 |
| 公開(公告)號: | CN107239573A | 公開(公告)日: | 2017-10-10 |
| 發明(設計)人: | 王加鋒;馮方方;孫健;劉斌;付強 | 申請(專利權)人: | 環球智達科技(北京)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京慧誠智道知識產權代理事務所(特殊普通合伙)11539 | 代理人: | 李楠 |
| 地址: | 100043 北京市石景*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據 過濾 方法 | ||
技術領域
本發明涉及數據處理技術領域,尤其涉及一種數據過濾方法。
背景技術
隨著互聯網的飛速發展,日益膨脹的網絡數據使互聯網用戶逐漸迷失在了信息的海洋之中。為此,各種個性化服務技術被提出來,為不同的用戶提供不同的服務,以滿足不同的需求。協同過濾推薦(Collaborative Filtering recommendation)是在信息過濾和信息系統中正迅速成為一項很受歡迎的技術。與傳統的基于內容過濾直接分析內容進行推薦不同,協同過濾分析用戶興趣,在用戶群中找到指定用戶的相似(興趣)用戶,綜合這些相似用戶對某一信息的評價,形成系統對該指定用戶對此信息的喜好程度預測。
然而,常常會有一些無效數據混雜在其中,造成協同過濾結果不準確,導致預測結果與實際存在偏差。
發明內容
本發明的目的是提供一種數據過濾方法,能夠對于數據進行識別和篩選,濾出有效數據,從而保證后續用于數據計算的數據有效性。
為實現上述目的,本發明提供了一種數據過濾方法,包括:
獲取面向第一用戶的待篩選的目標數據;
確定每個待篩選的目標數據的訪問日志;所述訪問日志包括所述目標數據的播放時長、訪問所述目標數據的終端IP地址和訪問動作的時間戳;
驗證第一目標數據的訪問日志中所述用戶ID和所述目標對象ID的格式;
當驗證通過時,統計同一終端IP地址對同一目標數據的訪問動作的時間戳,并計算得到所述第一目標數據的訪問頻率;
確定所述第一目標數據的訪問頻率是否超過預定頻率閾值;
當所述第一目標數據的訪問頻率超過預定頻率閾值時,對所述第一目標數據添加所述第一數據屬性;所述第一數據屬性用以表示所述第一目標數據為無效數據;
將所述第一目標數據從所述待篩選的目標數據中刪除。
優選的,所述方法還包括:
當所述驗證不通過時,對所述第一目標數據添加所述第一數據屬性;
根據所述第一數據屬性,將所述第一目標數據從所述待篩選的目標數據中刪除。
優選的,所述訪問日志還包括:所述第一用戶的用戶ID和所述目標數據的目標對象ID的格式;在所述對所述第一目標數據添加第一數據屬性之前,所述方法還包括:
確定所述第一目標數據的播放時長是否超過有效播放時間閾值;
當所述第一目標數據的播放時長不超過所述有效播放時間閾值時,對所述第一目標數據添加第一數據屬性。
進一步優選的,所述方法還包括:
當所述第一目標數據的播放時長超過所述有效播放時間閾值時,將所述第一目標數據添加至有效數據集合。
優選的,所述驗證所述用戶ID和所述目標對象ID的格式具體為:
通過正則方式進行所述用戶ID和所述目標對象ID的格式的數據校驗。
優選的,當所述第一目標數據的訪問頻率不超過預定頻率閾值時,將所述第一目標數據添加至有效數據集合。
本發明實施例提供的數據過濾方法,通過對目標數據的數據格式和數據訪問頻率的過濾來濾除無效數據,確定有效數據,從而保證后續用于數據計算的數據有效性。
附圖說明
圖1為本發明實施例提供的數據過濾方法的流程圖。
具體實施方式
下面通過附圖和實施例,對本發明的技術方案做進一步的詳細描述。
本發明實施例提供的數據過濾方法,能夠用于自動的數據有效性的過濾和篩選。
下面結合圖1所示的數據過濾方法的流程圖,以面向用戶的數據過濾服務的應用場景為例,對本發明實施例提供的數據過濾方法進行說明。
如圖1所示,本發明的數據過濾方法包括如下步驟:
步驟110,獲取面向第一用戶的待篩選的目標數據;
具體的,在本實施例中,目標數據是按照用戶屬性存儲的。每個用戶具有一個目標數據的數據庫,用以存儲目標數據。
在具體的例子中,例如在對用戶的影片觀看喜好進行數據過濾的場景中,目標數據可以是用戶觀看影片的影片信息,比如影片名稱、影片ID、主演名稱等等;在對用戶的購物喜好進行數據過濾的場景中,目標數據可以是用戶關注商品的商品信息,比如商品名稱、商品ID等。對于不同的應用場景,目標數據可以不同,但本發明的方法可以適用于多種場景。
因為目標數據是基于用戶ID進行存儲的,所以可以通過用戶ID獲取到所需要進行篩選的目標數據。
步驟120,確定每個待篩選的目標數據的訪問日志;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于環球智達科技(北京)有限公司,未經環球智達科技(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710509189.0/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





