[發(fā)明專(zhuān)利]一種基于互信息和改進(jìn)遺傳算法的用戶(hù)屬性特征選擇方法在審
| 申請(qǐng)?zhí)枺?/td> | 202110292490.7 | 申請(qǐng)日: | 2021-03-18 |
| 公開(kāi)(公告)號(hào): | CN112906890A | 公開(kāi)(公告)日: | 2021-06-04 |
| 發(fā)明(設(shè)計(jì))人: | 曹倩;左敏;姜同強(qiáng);麻春蕊;王曼 | 申請(qǐng)(專(zhuān)利權(quán))人: | 北京工商大學(xué) |
| 主分類(lèi)號(hào): | G06N3/12 | 分類(lèi)號(hào): | G06N3/12;G06K9/62;G06Q30/02 |
| 代理公司: | 北京永創(chuàng)新實(shí)專(zhuān)利事務(wù)所 11121 | 代理人: | 易卜 |
| 地址: | 100048*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 互信 改進(jìn) 遺傳 算法 用戶(hù) 屬性 特征 選擇 方法 | ||
本發(fā)明公開(kāi)了一種基于互信息和改進(jìn)遺傳算法的用戶(hù)屬性特征選擇方法,屬于機(jī)器學(xué)習(xí)領(lǐng)域,具體包括:首先,對(duì)各手機(jī)用戶(hù)設(shè)置標(biāo)簽并統(tǒng)計(jì)用戶(hù)特征,對(duì)每個(gè)標(biāo)簽和對(duì)應(yīng)的各個(gè)特征之間計(jì)算互信息;接著,按照互信息由大到小的順序進(jìn)行排序,并篩選互信息大于閾值的特征到初始種群中;同時(shí),在初始種群中隨機(jī)生成若干特征并賦值;然后,對(duì)特征進(jìn)行編碼形成個(gè)體并計(jì)算每個(gè)個(gè)體的適應(yīng)度;利用輪盤(pán)賭的比例選擇法,按照適應(yīng)度值計(jì)算個(gè)體的選擇概率,對(duì)于選中進(jìn)入下一代遺傳操作的個(gè)體,進(jìn)行交叉、變異操作,產(chǎn)生新一代種群;重復(fù)計(jì)算新一代種群中個(gè)體的適應(yīng)度,直至終止輸出最優(yōu)特征子集;本發(fā)明快速得到最優(yōu)特征子集,刪除了部分冗余特征,分類(lèi)效果明顯。
技術(shù)領(lǐng)域
本發(fā)明屬于機(jī)器學(xué)習(xí)領(lǐng)域,具體涉及一種基于互信息和改進(jìn)遺傳算法的用戶(hù)屬性特征選擇方法。
背景技術(shù)
隨著手機(jī)網(wǎng)民規(guī)模的逐年擴(kuò)大,移動(dòng)互聯(lián)網(wǎng)已經(jīng)廣泛滲入到人們?nèi)粘I畹姆椒矫婷妫淖兞巳藗兊纳睢⑸缃缓蛫蕵?lè)等方式,智能手機(jī)的不斷普及以及手機(jī)網(wǎng)民規(guī)模的擴(kuò)大,導(dǎo)致智能手機(jī)的應(yīng)用市場(chǎng)也呈現(xiàn)爆炸式増長(zhǎng)。
智能手機(jī)與個(gè)人緊密關(guān)聯(lián),用戶(hù)在長(zhǎng)期使用智能手機(jī)的過(guò)程中,通過(guò)應(yīng)用商店安裝不同的APP來(lái)獲取需要的服務(wù),手機(jī)幾乎承載了一個(gè)人全部的行為和偏好;通過(guò)用戶(hù)對(duì)不同App的安裝以及使用數(shù)據(jù),能夠反映用戶(hù)的性別,年齡等基本屬性、以及生活方式和興趣偏好等個(gè)人信息;用戶(hù)屬性的深入挖掘?qū)€(gè)體用戶(hù)及群體用戶(hù)的研究均具有較大的意義。
隨著智能手機(jī)的不斷發(fā)展,手機(jī)中存儲(chǔ)的數(shù)據(jù)集規(guī)模和數(shù)據(jù)維度也在逐漸擴(kuò)大。海量的數(shù)據(jù)和特征維度可能存在特征冗余等情況;特征篩選作為用戶(hù)屬性預(yù)測(cè)的第一步,可以在海量的特征中尋找可解釋性較強(qiáng)、與目標(biāo)變量相關(guān)度較高的特征,并剔除無(wú)關(guān)的冗余特征,從而降低用戶(hù)屬性預(yù)測(cè)模型的訓(xùn)練時(shí)間成本,也有助于提高算法的準(zhǔn)確率。
針對(duì)特征選擇問(wèn)題,目前的已有研究多集中于考慮單個(gè)特征的重要性,使得考量過(guò)程往往過(guò)于簡(jiǎn)化,忽略了不同特征之間的關(guān)聯(lián)性,以及關(guān)聯(lián)性對(duì)特征重要度的影響,進(jìn)而降低了大數(shù)據(jù)特征選擇的整體性能。
發(fā)明內(nèi)容
為了對(duì)用戶(hù)屬性進(jìn)行精準(zhǔn)預(yù)測(cè),高效實(shí)現(xiàn)特征選擇,本發(fā)明提出了一種基于互信息和改進(jìn)遺傳算法的用戶(hù)屬性特征選擇方法,通過(guò)定義各手機(jī)用戶(hù)的性別及年齡段為標(biāo)簽;同時(shí)定義手機(jī)中各APP的App安裝特征、App使用特征、用戶(hù)App使用偏好特征、Applist2vec特征為原始特征;根據(jù)各標(biāo)簽及原始特征,通過(guò)互信息計(jì)算特征與標(biāo)簽的相關(guān)性,并將篩選后的特征作為遺傳算法初始種群的一部分;另一方面,利用類(lèi)內(nèi)類(lèi)間距離構(gòu)造遺傳算法的適應(yīng)度函數(shù),改進(jìn)遺傳算法進(jìn)行特征選擇,從而為后續(xù)的用戶(hù)屬性預(yù)測(cè)提取出有效的、具有代表性的特征,改善分類(lèi)器性能,提高分類(lèi)準(zhǔn)確率。
具體步驟如下:
步驟一、海量采集手機(jī)用戶(hù),對(duì)各手機(jī)用戶(hù)的性別及年齡段設(shè)為標(biāo)簽sex_age;
sex表示用戶(hù)性別,取值1、2分別表示男和女;age表示用戶(hù)年齡段,取值0-10分別對(duì)應(yīng)用戶(hù)不同的年齡段;
步驟二、同時(shí),將每個(gè)用戶(hù)的App安裝特征、App使用特征、用戶(hù)App使用偏好特征以及Applist2vec特征為原始特征,將每個(gè)標(biāo)簽下的用戶(hù)特征構(gòu)成原始特征集;
每個(gè)標(biāo)簽sex_age都對(duì)應(yīng)M個(gè)特征,特征集合為F={f1,f2,…,fi,....fM};最終所有標(biāo)簽的所有特征集合構(gòu)成了原始特征集。
步驟三、利用互信息算法計(jì)算每個(gè)標(biāo)簽和對(duì)應(yīng)的各個(gè)特征之間的互信息;
針對(duì)離散隨機(jī)變量標(biāo)簽X,以及該標(biāo)簽X對(duì)應(yīng)的某個(gè)特征Y,互信息I(X;Y)為:
H(X)表示變量標(biāo)簽X的熵,S為變量標(biāo)簽X的取值范圍;p(x)是變量標(biāo)簽X的概率密度分布函數(shù);
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于北京工商大學(xué),未經(jīng)北京工商大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110292490.7/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 同類(lèi)專(zhuān)利
- 專(zhuān)利分類(lèi)
- 顯性分子標(biāo)記群體遺傳多樣性和遺傳分化參數(shù)估算優(yōu)化方法
- 林地管理方法
- 林地管理方法
- 檢測(cè)遺傳突變的方法
- 一種遺傳變異研究數(shù)據(jù)存儲(chǔ)方法及裝置
- 表觀(guān)遺傳學(xué)藥物凋亡誘導(dǎo)模型的構(gòu)建方法
- 遺傳物質(zhì)的保存微粒及長(zhǎng)期保存方法
- 確定新發(fā)突變?cè)谂咛ブ械倪z傳狀態(tài)的方法和裝置
- 多核系統(tǒng)的任務(wù)分配方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種檢測(cè)腫瘤干細(xì)胞中遺傳和表觀(guān)遺傳變化的方法





