[發明專利]一種產生數據的方法和裝置有效
| 申請號: | 201310027416.8 | 申請日: | 2013-01-24 |
| 公開(公告)號: | CN103970738B | 公開(公告)日: | 2017-08-29 |
| 發明(設計)人: | 羅純杰;王磊;詹劍鋒;張立新 | 申請(專利權)人: | 華為技術有限公司;中國科學院計算技術研究所 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;H04L29/08 |
| 代理公司: | 北京中博世達專利商標代理有限公司11274 | 代理人: | 申健 |
| 地址: | 518129 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 產生 數據 方法 裝置 | ||
技術領域
本發明涉及計算機領域,尤其涉及一種產生數據的方法和裝置。
背景技術
隨著互聯網的不斷發展,大數據(Big Data)通常用來形容一個公司創造的大量非結構化和半結構化數據,現在對大數據的研究已經擴展到生活的方方面面,通過對大數據進行分析發掘,進而獲得更有價值的信息。大數據已成為當前很多行業研究的主題。
在對大數據進行處理時,需要處理的數據量是極其龐大的,然而處于保密性的考慮,大數據處理方案的提供者只能得到小規模的樣本數據,往往不能獲取到實際的大數據來進行測試,并且獲取和傳輸大數據的過程中,會占用更多的資源,對相應的存儲和網絡資源都有較高的要求。
現有大規模數據生成技術主要包括以下幾種:基于Hadoop(一個分布式系統基礎架構,用戶可以在不了解分布式底層細節的情況下,開發分布式程序)基準測試程序集,利用完全隨機的方式來產生大規模的數據;或者,采用zipfian分布生成數據,或按照均勻分布和高斯分布生成數據。
但是上述三種現有技術生成的大數據都不能反應樣本數據的原有的規律性,使得新生成的數據參考性較低。
發明內容
本發明的實施例提供一種產生數據的方法和裝置,能夠利用小規模的樣本數據生成大數據,同時還保留了原有小規模數據的特征規律,提高了生成的大數據的參考價值,并且不需要進行數據的大規模移動,有效節省了存儲和網絡開銷。
為達到上述目的,本發明的實施例采用如下技術方案:
第一方面,提供一種產生數據的方法,所述方法包括:
根據已獲得的樣本數據制定數據生成策略;
根據所述數據生成策略生成第一數據,并將所述第一數據上傳至文件系統;
將所述數據生成策略發送至從節點,以便所述從節點根據所述數據生成策略生成第二數據,并將所述第二數據上傳至所述文件系統。
在第一種可能的實現方式中,結合第一方面,所述樣本數據為m行n列的矩陣,其中m表示第一對象的總數,n表示第二對象的總數,所述矩陣中元素為r(u,i),所述r(u,i)表示第u個第一對象對第i個第二對象的評分。
在第二種可能的實現方式中,結合第一種可能的實現方式,所述根據已獲得的樣本數據制定數據生成策略包括:
確定數據生成的方向為沿所述矩陣的橫向擴展和/或沿所述矩陣的縱向擴展;
若確定的數據生成的方向為沿所述矩陣的橫向擴展,則在所述矩陣的n列向量中選取至少一列作為第一參考向量集;或
若確定的數據生成的方向為沿所述矩陣的縱向擴展,則在所述矩陣的m行向量中選取至少一行作為第一參考向量集。
在第三種可能的實現方式中,結合第一種可能的實現方式,所述根據已獲得的樣本數據制定數據生成策略還包括:
確定數據生成的方向為沿所述矩陣的橫向擴展和/或沿所述矩陣的縱向擴展;
若確定的數據生成的方向為沿所述矩陣的橫向擴展,則對所述矩陣的n列向量進行聚類處理,并將聚類處理結果的中心點中的向量作為第一參考向量集;或
若確定的數據生成的方向為沿所述矩陣的縱向擴展,則對所述矩陣的m行向量進行聚類處理,并將聚類處理結果的中心點中的向量作為第一參考向量集。
在第四種可能的實現方式中,根據第二種或第三種可能的實現方式,所述根據所述數據生成策略生成第一數據包括:
記錄所述第一參考向量集中每個向量中的非空元素的位置信息;
根據所述第一參考向量集中每個向量中的非空元素選取第一向量集,所述第一向量集中的每個向量不包含空元素;
利用向量相似性根據所述第一向量集生成第二向量集,所述第二向量集中的每個向量不包含空元素;
根據所述參考向量中每個向量中的非空元素的位置信息以及所述第二向量集生成第三向量集;
將所述第三向量集加入所述矩陣中形成新矩陣,將所述新矩陣作為所述第一數據。
在第五種可能的實現方式中,結合第一方面至第一方面的第四種可能的實現方式中的任意一項,在所述將所述數據生成策略發送至從節點時,所述方法還包括:
將所述從節點需要生成數據的數據量及所述從節點向主節點返回完成生成數據消息的時間間隔至所述從節點;
按照所述時間間隔,從所述從節點接收所述數據生成結果,所述完成生成數據消息包括所述從節點已生成的數據量和已完成數據生成的信息。
在第六中可能的實現方式中,結合第五種可能的實現方式,所述方法還包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華為技術有限公司;中國科學院計算技術研究所,未經華為技術有限公司;中國科學院計算技術研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310027416.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:數據庫連接管理方法及系統
- 下一篇:離合制動器
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





