[發(fā)明專利]用戶增量類數(shù)據(jù)獲取方法、裝置及設備在審
| 申請?zhí)枺?/td> | 201710432078.4 | 申請日: | 2017-06-09 |
| 公開(公告)號: | CN107329998A | 公開(公告)日: | 2017-11-07 |
| 發(fā)明(設計)人: | 陶勝 | 申請(專利權(quán))人: | 廣州虎牙信息科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06Q30/02 |
| 代理公司: | 北京市立方律師事務所11330 | 代理人: | 劉延喜,王增鑫 |
| 地址: | 511442 廣東省廣州市番禺區(qū)南村鎮(zhèn)萬博二*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 用戶 增量 數(shù)據(jù) 獲取 方法 裝置 設備 | ||
技術(shù)領域
本發(fā)明涉及數(shù)據(jù)處理技術(shù)領域,具體而言,本發(fā)明涉及一種用戶增量類數(shù)據(jù)獲取方法、裝置及設備。
背景技術(shù)
Hadoop一個由Apache基金會所開發(fā)的分布式系統(tǒng)構(gòu)架,由于能夠讓用戶輕松架構(gòu)和使用的分布式運算平臺,使得Hadoop一出現(xiàn)就受到眾多大公司的青睞。Hadoop系統(tǒng)帶有用Java語言編寫的框架,用戶可以在不了解分布式底層細節(jié)的情況下,開發(fā)分布式程序,輕松地在Hadoop上開發(fā)和運行處理海量數(shù)據(jù)的應用程序,Hadoop上的應用程序也可以使用其他語言編寫,如C++。到目前為止,Hadoop技術(shù)在互聯(lián)網(wǎng)領域已經(jīng)得到了廣泛的運用。但是Hadoop技術(shù)無論在功能上還是在穩(wěn)定性等方面還有待進一步完善,如在大數(shù)據(jù)開發(fā)過程中,大數(shù)據(jù)存儲在Hadoop集群中,利用Hive提供的SQL語句進行處理。
在眾多產(chǎn)品中,都需要運算新用戶數(shù)據(jù),來判斷該產(chǎn)品能否吸引用戶,進而將其做為改進產(chǎn)品功能的一個重要衡量指標。現(xiàn)有情況下,獲取用戶增量類數(shù)據(jù)通常需要用join操作,但是運算過程冗長而效率低下,為此,提出一種新的方案來解決新用戶信息的獲取問題。
發(fā)明內(nèi)容
本發(fā)明的目的在于針對以上存在的至少一方面不足,提供一種用戶增量類數(shù)據(jù)獲取方法、裝置及設備,能夠提高數(shù)據(jù)運算效率,具有豐富拓展性。
為了實現(xiàn)該目的,本發(fā)明采取如下技術(shù)方案:
第一方面,本發(fā)明實施例中提供了一種用戶增量類數(shù)據(jù)獲取方法,包括如下步驟:
對Hadoop的數(shù)據(jù)庫運算,獲取預定時間范圍內(nèi)所有用戶首次訪問產(chǎn)品產(chǎn)生的數(shù)據(jù)記錄,并存儲于第一數(shù)據(jù)表中;
對所述數(shù)據(jù)庫運算,獲取在預定時間范圍內(nèi)訪問所述產(chǎn)品的所有用戶為相應產(chǎn)品的總量用戶,并獲取在預定時間范圍外的前置時間段內(nèi)訪問所述產(chǎn)品的所有用戶為相應產(chǎn)品的存量用戶,從而獲取所述產(chǎn)品除了所述存量用戶之外的所述總量用戶作為相應產(chǎn)品的增量用戶,將所述增量用戶和產(chǎn)品或/和預定時間范圍關(guān)聯(lián)性存儲于第二數(shù)據(jù)表中;
對所述第一數(shù)據(jù)表和所述第二數(shù)據(jù)表運算,獲取預定時間范圍內(nèi)各增量用戶首次訪問相應產(chǎn)品產(chǎn)生的數(shù)據(jù)記錄。
結(jié)合第一方面,本發(fā)明在第一方面的第一種實現(xiàn)方式中,對所述數(shù)據(jù)庫運算,獲取在預定時間范圍內(nèi)訪問所述產(chǎn)品的用戶為相應產(chǎn)品的總量用戶,包括:
對所述數(shù)據(jù)庫中用于獲取所述存儲于第一數(shù)據(jù)表中的數(shù)據(jù)記錄的第一源數(shù)據(jù)表運算,獲取在預定時間范圍內(nèi)訪問所述產(chǎn)品的所有用戶為相應產(chǎn)品的總量用戶;或
對所述第一數(shù)據(jù)表運算,獲取在所述預定時間范圍內(nèi)首次訪問所述產(chǎn)品產(chǎn)生該第一數(shù)據(jù)表所儲存數(shù)據(jù)記錄的所有用戶作為相應產(chǎn)品的總量用戶。
結(jié)合第一方面,本發(fā)明在第一方面的第二種實現(xiàn)方式中,所述
獲取預定時間范圍內(nèi)所有用戶首次訪問產(chǎn)品產(chǎn)生的數(shù)據(jù)記錄,包括,調(diào)用聚合函數(shù)order_first_row在預定時間范圍內(nèi)按時間升序分別對每個所有用戶訪問各個產(chǎn)品產(chǎn)生的數(shù)據(jù)記錄進行排列后篩選出首條數(shù)據(jù)記錄。
結(jié)合第一方面,本發(fā)明在第一方面的第三種實現(xiàn)方式中,所述獲取所述產(chǎn)品除了所述存量用戶之外的所述總量用戶作為相應產(chǎn)品的增量用戶,包括:
分別標記預定時間范圍內(nèi)所述產(chǎn)品對應的所述總量用戶和所述存量用戶;
使用集合操作符UNION ALL基于產(chǎn)品和用戶或/和預定時間范圍的映射關(guān)系合并所述產(chǎn)品及其對應的所述總量用戶和所述存量用戶并存儲于合并數(shù)據(jù)表;
調(diào)用外部函數(shù)GROUP BY對所述合并數(shù)據(jù)表基于產(chǎn)品和用戶或/和預定時間范圍的映射關(guān)系去掉重復數(shù)據(jù)記錄,并調(diào)用外部函數(shù)HAVING和聚合函數(shù)過濾出各個產(chǎn)品含有總量用戶對應標記且不含所述存量用戶對應標記的用戶作為增量用戶。
結(jié)合第一方面,本發(fā)明在第一方面的第四種實現(xiàn)方式中,所述對所述第一數(shù)據(jù)表和所述第二數(shù)據(jù)表運算,獲取預定時間范圍內(nèi)各增量用戶首次訪問相應產(chǎn)品產(chǎn)生的數(shù)據(jù)記錄,包括:
調(diào)用外部函數(shù)JOIN基于同一用戶關(guān)聯(lián)于同一產(chǎn)品的數(shù)據(jù)記錄或者基于同一用戶在同一時間范圍內(nèi)關(guān)聯(lián)于同一產(chǎn)品的數(shù)據(jù)記錄,連接所述第一數(shù)據(jù)表和所述第二數(shù)據(jù)表,獲取預定時間范圍內(nèi)各增量用戶首次訪問相應產(chǎn)品產(chǎn)生的數(shù)據(jù)記錄。
結(jié)合第一方面的第四種實現(xiàn)方式,本發(fā)明在第一方面的第五種實現(xiàn)方式中,所述獲取所述產(chǎn)品除了所述存量用戶之外的所述總量用戶作為相應產(chǎn)品的增量用戶之前,還包括,調(diào)用外部函數(shù)GROUP BY對預定時間范圍內(nèi)各個產(chǎn)品及其對應的所述總量用戶基于各個產(chǎn)品和用戶或/和預定時間范圍的映射關(guān)系去掉重復數(shù)據(jù)記錄。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于廣州虎牙信息科技有限公司,未經(jīng)廣州虎牙信息科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710432078.4/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





