[發明專利]服務器中數據的特征分析方法和裝置在審
| 申請號: | 201610388434.2 | 申請日: | 2016-06-02 |
| 公開(公告)號: | CN107463564A | 公開(公告)日: | 2017-12-12 |
| 發明(設計)人: | 王堃;歐陽志友;岳東 | 申請(專利權)人: | 華為技術有限公司;南京郵電大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06Q30/02 |
| 代理公司: | 北京龍雙利達知識產權代理有限公司11329 | 代理人: | 毛威,肖鸝 |
| 地址: | 518129 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 服務器 數據 特征 分析 方法 裝置 | ||
技術領域
本發明涉及數據分析領域,尤其涉及對服務器中數據的特征分析方法和裝置。
背景技術
對于大數據的分析處理,由于模板匹配算法的處理速度快、可并行化執行等特點,因此在例如推薦系統、搜索引擎、在線廣告、網站數字化運營等領域都得到了廣泛運用。
然而,大數據的模板匹配算法的效果非常依賴于輸入的數據特征,也就是為大數據設置的特征工程可以決定處理大數據的精度上限,例如:在實際的電子商務個性化推薦系統的測試中,特征工程對整個數據的分類預測結果的影響最多可以達到80%左右。這使得特征工程的構建成為一個跟算法同等重要甚至在實際應用中比算法更為重要的工作。
目前的模板匹配算法中特征工程的構建主要由人工進行自定義,例如:針對用戶歷史行為的待處理數據的特性,由領域專家預設用戶歷史行為特征的模板匹配算法、模板匹配參數、匹配度閾值等。這樣,只能針對不同的業務知識來提取對應的特征,導致業務專家的參與時間較長,且特征提取準確度較低。
發明內容
本申請提供了一種服務器中數據的特征分析方法和裝置,能夠提高數據分類或預測的準確度。
第一方面,提供了一種服務器中數據的特征分析方法,該服務器包括待分析數據和數據庫,該數據庫包括至少一種數據類型、以及該至少一種數據類型中每種數據類型對應的特征擴展規則,該特征擴展規則用于將該每種數據類型擴展為至少一個擴展特征,該方法包括:根據該數據庫中該至少一種數據類型,確定該待分析數據的數據類型;確定該待分析數據的數據類型對應的特征擴展規則;根據該待分析數據的數據類型對應的特征擴展規則,確定該待分析數據的至少一個擴展特征及每個擴展特征對應的數據;輸出該待分析數據的該每個擴展特征對應的數據。
因此,本申請的服務器中數據的特征分析方法,確定至少一種數據類型,以及每種數據類型對應的特征擴展規則,可以實現從單一簡單的數據類型出發,通過特征擴展規則挖掘出待分析數據的一系列擴展特征,減少數據分析時特征體系構建的工作量,而無需人工定義并提取待分析數據中的每個特征,減少特征提取過程中人工參與時間,更加快捷的構建特征體系,提高數據分類或預測的準確度。
應理解,該服務器中的數據庫包括的數據類型,可以為根據業務需求,或數據分析的需求,由領域專家,或其他人員,定義一種或多種數據類型,每種數據類型對應一種存儲格式。例如,待分析數據為與購物相關的數據,則可以根據分析需求,統計用戶購物的情況,則可以定義數據類型為用戶歷史行為天數(his_time_int),存儲格式可以為簡單的編號。例如,對于某一年內,將購物天數小于或等于10天的記錄,his_time_int標記為1,購物天數大于10天小于等于20天的記錄,his_time_int標記為2,以此類推,可以用從1開始的序號對his_time_int進行編號。
再例如,待分析數據為與商品相關的數據,考慮分析需求以及業務需要,統計用戶購買的商品信息,則可以定義數據類型為用戶編號(user_id)、商品編號(item_id)或商品品類編號(category_id)等,他們的存儲格式均可以是離散長整數類型(discret bigint),該類離散長整數可以進行排序,即大小的比較,并且可以使用與長整數一樣的存儲格式,但是不能進行加減乘除等數學操作。以商品編號(item_id)為例,該商品編號可以表示與該商品相關的信息,例如,通過商品編號可以標識出該商品的生成日期、購買日期、價格或種類等。
應理解,數據中的改至少一種數據類型可以在數據庫中構成一個數據類型定義庫,保存該數據類型定義庫,并且可以不斷增加該數據類型定義庫中數據類型,以便于對不同數據進行分析時,可以通過查找該數據類型定義庫確定數據類型,而無需每次都進行數據類型的定義,極大的減少人工參與過程。
在本申請中,在數據庫中定義了至少一種數據類型后,還可以為每一種數據類型定義對應的特征擴展規則。具體地,可以根據業務需求,或者數學計算方式,或者數據類型、或者待分析數據需要擴展的特征,確定每種數據類型對應的特征擴展規則,該特征擴展規則可以包括特征提取的方法和參數,通過該特征擴展規則,在待分析數據的某一數據類型中提取出擴展特征。
例如,當數據類型為時間,如用戶歷史行為天數(his_time_int),對應的特征擴展規則可以為以下幾種:
1、定義時間段的劃分。對于不同的購買天數,可以根據分析的需求,劃分不同時間段,統計每個時間段內的數據特征,如可以統計每個時間段內每個用戶的購買量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華為技術有限公司;南京郵電大學,未經華為技術有限公司;南京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610388434.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:掛鉤(HY?0239)
- 下一篇:沖床用減壓閥閥體(JH型1027)
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





