[發(fā)明專利]一種基于用戶信息的數(shù)據(jù)分析方法有效
| 申請?zhí)枺?/td> | 202010769479.0 | 申請日: | 2020-08-04 |
| 公開(公告)號: | CN111654853B | 公開(公告)日: | 2020-11-10 |
| 發(fā)明(設(shè)計)人: | 邵俊;藺靜茹;張磊;曹新建;支磊 | 申請(專利權(quán))人: | 索信達(北京)數(shù)據(jù)技術(shù)有限公司;深圳索信達數(shù)據(jù)技術(shù)有限公司 |
| 主分類號: | H04W8/18 | 分類號: | H04W8/18;H04W72/12;G06K9/62 |
| 代理公司: | 北京市隆安律師事務(wù)所 11323 | 代理人: | 楊云 |
| 地址: | 100020 北京市朝陽區(qū)望京東園*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 用戶信息 數(shù)據(jù) 分析 方法 | ||
1.一種基于用戶信息的數(shù)據(jù)分析方法,包括以下步驟:
接收用戶信息;
將所述用戶信息轉(zhuǎn)換匯總為用戶大數(shù)據(jù)集合;
將所述用戶大數(shù)據(jù)集合隨機劃分為兩個集合,所述兩個集合包括第一集合和第二集合,所述第一集合存儲到第一數(shù)據(jù)庫中,所述第二集合存儲到第二數(shù)據(jù)庫中;
對所述第一數(shù)據(jù)庫中的所述第一集合進行分箱相關(guān)處理,得到第三集合,將所述第三集合存儲到第三數(shù)據(jù)庫中;
提取所述第三數(shù)據(jù)庫中的第三集合,并基于所述第三集合采用因子分析法構(gòu)建第一模型;
提取所述第二數(shù)據(jù)庫中的第二集合,基于所述第二集合對所述第一模型進行驗證;
其中,所述基于所述第三集合采用因子分析法構(gòu)建所述第一模型,具體包括:
使用因子分析法進行變量聚類;
對每個類中的變量進行第一次變量篩選使得剩余變量數(shù)不大于第一閾值;
對第一次篩選后剩下的變量采用多次向后剔除法迭代進行第二次變量篩選,直至滿足預(yù)設(shè)條件。
2.如權(quán)利要求1所述的方法,其中將所述用戶大數(shù)據(jù)集合隨機劃分為兩個集合,具體包括:
將用戶所有信息組合成寬表;
將所述寬表隨機按照一定比例劃分成兩個集合。
3.如權(quán)利要求2所述的方法,其中所述第一集合為訓(xùn)練集,其用于建模和模型參數(shù)估計,所述第二集合為測試集,其用于模型評估。
4.如權(quán)利要求1所述的方法,其中所述第一模型為邏輯回歸模型。
5.如權(quán)利要求4所述的方法,其中所述對所述第一數(shù)據(jù)庫中的所述第一集合進行分箱相關(guān)處理,得到第三集合具體包括:
對所述第一集合數(shù)據(jù),進行分箱;
對每箱進行WOE變換,獲取WOE值,得到第三集合;其中WOE為證據(jù)權(quán)重。
6.如權(quán)利要求5所述的方法,其中所述因子分析法具體包括:
假設(shè)有N個候選變量的特征向量,計算出其協(xié)方差矩陣,其協(xié)方差矩陣是一個N*N的矩陣M,其中M_ij表示矩陣M第i行第j列的元素,M_ij的值是N個候選變量中第i個變量和第j個變量之間的協(xié)方差;
計算協(xié)方差矩陣M的N個特征根和特征向量;
N個特征根按照從大到小排序分別記做λ_1,λ_2,…,λ_N,與使用上述方式排序后的特征根對應(yīng)的N個標(biāo)準(zhǔn)化特征向量依次記做v_1,v_2,…,v_N。
7.如權(quán)利要求6所述的方法,其中基于上述因子分析法獲取第一閾值,所述第一閾值為,其表示前k個最大的特征值的和大于0.75。
8.如權(quán)利要求7所述的方法,其中所述對每個類中的變量進行第一次變量篩選使得剩余變量數(shù)不大于第一閾值,具體包括:
變量聚類后的類的數(shù)量為k,而第一閾值為2k;
對所述k個類中的每個類選取出兩個變量,一個是變量IV值最高的,另一個是變量R2值最大的;IV值高意味著該變量對于模型結(jié)果的貢獻較高,R2值高意味著該變量在簇內(nèi)具有較高代表性。
9.如權(quán)利要求5所述的方法,所述對第一次篩選后剩下的變量采用多次向后剔除法迭代進行第二次變量篩選,直至滿足預(yù)設(shè)條件具體包括:
如果存在候選變量的VIF值大于4,則將p值最高的變量剔除出去,其中,VIF為邏輯回歸模型有效性評判指標(biāo)中的方差膨脹系數(shù),p值為邏輯回歸模型有效性評判指標(biāo)中的假定值p-value;
剔除p值大于指定值的變量;
重復(fù)以上步驟,直至所有變量的p值均小于指定值,且所有變量的VIF均小于4。
10.如權(quán)利要求1所述的方法,其中所述用戶大數(shù)據(jù)集合是響應(yīng)于用戶請求,由服務(wù)方經(jīng)過用戶授權(quán)后獲得。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于索信達(北京)數(shù)據(jù)技術(shù)有限公司;深圳索信達數(shù)據(jù)技術(shù)有限公司,未經(jīng)索信達(北京)數(shù)據(jù)技術(shù)有限公司;深圳索信達數(shù)據(jù)技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010769479.0/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
H04W 無線通信網(wǎng)絡(luò)
H04W8-00 網(wǎng)絡(luò)數(shù)據(jù)管理
H04W8-02 .移動性數(shù)據(jù)處理,例如,在HLR[歸屬位置寄存器]或VLR[訪問位置寄存器]上的注冊信息;在例如HLR,VLR或外部網(wǎng)絡(luò)之間的移動性數(shù)據(jù)傳送
H04W8-18 .用戶或訂戶數(shù)據(jù)的處理,例如,訂閱的業(yè)務(wù),用戶優(yōu)先權(quán)或用戶簡檔;用戶或訂戶數(shù)據(jù)的傳送
H04W8-22 .終端數(shù)據(jù)的處理或傳送,例如狀態(tài)或物理能力
H04W8-26 .用于移動性支持的網(wǎng)絡(luò)尋址或編號
H04W8-30 .網(wǎng)絡(luò)數(shù)據(jù)恢復(fù)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





