[發(fā)明專利]一種基于大規(guī)模Embedding技術(shù)的Wi-Fi聚類方法及系統(tǒng)有效
| 申請?zhí)枺?/td> | 201810096348.3 | 申請日: | 2018-01-31 |
| 公開(公告)號: | CN108345661B | 公開(公告)日: | 2020-04-28 |
| 發(fā)明(設(shè)計(jì))人: | 張宇;李雯 | 申請(專利權(quán))人: | 華南理工大學(xué) |
| 主分類號: | G06F16/9537 | 分類號: | G06F16/9537;G06Q30/06;G06K9/62;G06N3/04;G06N3/08;H04L29/08 |
| 代理公司: | 廣州市華學(xué)知識產(chǎn)權(quán)代理有限公司 44245 | 代理人: | 馮炳輝 |
| 地址: | 510640 廣*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 大規(guī)模 embedding 技術(shù) wi fi 方法 系統(tǒng) | ||
1.一種基于大規(guī)模Embedding技術(shù)的Wi-Fi聚類方法,其特征在于:首先進(jìn)行數(shù)據(jù)樣本整理,將每一個(gè)用戶半年的連接過Wi-Fi按照時(shí)間順序組成一個(gè)個(gè)序列,統(tǒng)計(jì)每個(gè)用戶連接過的Wi-Fi的數(shù)量的分布情況,根據(jù)分布情況,確定上下兩個(gè)閾值,去掉連接過的Wi-Fi數(shù)量超出閾值范圍內(nèi)的用戶序列,將樣本中出現(xiàn)過的Wi-Fi進(jìn)行統(tǒng)計(jì)得到一個(gè)字典,根據(jù)字典將每一個(gè)Wi-Fi進(jìn)行One-Hot獨(dú)熱編碼,隨機(jī)選取字典中一部分的Wi-Fi根據(jù)Wi-Fi來源場景人工標(biāo)注其場景類別作為這個(gè)Wi-Fi的類別;然后,將每一個(gè)用戶的Wi-Fi序列經(jīng)過滑動(dòng)窗口的進(jìn)行加窗處理,窗口內(nèi)的Wi-Fi記為局部信息,對掃描過的Wi-Fi進(jìn)行隨機(jī)采樣得到一組Wi-Fi記為全局信息,當(dāng)前窗口后面一個(gè)Wi-Fi標(biāo)注為局部信息和全局信息的樣本標(biāo)簽;聯(lián)合局部信息樣本和全局信息樣本作為一組大規(guī)模Embedding的訓(xùn)練樣本;通過一個(gè)三層神經(jīng)網(wǎng)絡(luò)模型將Wi-Fi進(jìn)行Embedding映射到一個(gè)高維空間,使每一個(gè)Wi-Fi在高維空間有一個(gè)向量與其一一對應(yīng),且該高維向量能保存其對應(yīng)Wi-Fi的特征,該三層神經(jīng)網(wǎng)絡(luò)模型通過輸入一組訓(xùn)練樣本,預(yù)測該樣本標(biāo)簽出現(xiàn)的概率,學(xué)習(xí)到的輸入層與隱藏層之間的權(quán)重即為Embedding到高維空間的新的向量;其次,在人工標(biāo)注的Wi-Fi類別下使用Embedding的Wi-Fi高維向量計(jì)算類內(nèi)平均余弦相似度和類間平均余弦相似度,設(shè)定一個(gè)閾值,比較兩個(gè)余弦相似度的差異程度,當(dāng)這個(gè)差別超過這個(gè)閾值,即認(rèn)為這個(gè)訓(xùn)練的向量有效,并將Embedding的向量使用TSNE和Tensorboard可視化,直接觀察相同類別的Wi-Fi向量的聚攏程度;最后,根據(jù)實(shí)際應(yīng)用場景的多少以及Wi-Fi數(shù)量級的大小選擇聚類的類別個(gè)數(shù),將學(xué)習(xí)到的Wi-Fi的向量輸入到Kmeans聚類算法中進(jìn)行聚類得到每一個(gè)Wi-Fi的類別。
2.根據(jù)權(quán)利要求1所述的一種基于大規(guī)模Embedding技術(shù)的Wi-Fi聚類方法,其特征在于,包括以下步驟:
1)數(shù)據(jù)樣本整理
1.1)進(jìn)行數(shù)據(jù)處理,將每一個(gè)用戶半年內(nèi)連接過的Wi-Fi按照連接時(shí)間順序分別組成序列,統(tǒng)計(jì)每個(gè)用戶連接過的Wi-Fi數(shù)量以及其分布,根據(jù)分布情況,確定上下兩個(gè)閾值,去掉連接過的Wi-Fi數(shù)量超出閾值范圍內(nèi)的用戶序列,然后將樣本隨機(jī)抽取一部分作為訓(xùn)練集,其余部分作為測試集;
1.2)將出現(xiàn)過的Wi-Fi進(jìn)行統(tǒng)計(jì),制成字典,根據(jù)字典將每一個(gè)Wi-Fi進(jìn)行One-Hot獨(dú)熱編碼;選取字典中一部分的Wi-Fi進(jìn)行人工標(biāo)注其Wi-Fi來源場景作為Wi-Fi的類別,來源場景包括公共場所Wi-Fi、商場大廈Wi-Fi、餐館Wi-Fi、酒店Wi-Fi、私人Wi-Fi,其中公共場所Wi-Fi包括圖書館Wi-Fi、醫(yī)院Wi-Fi、機(jī)場Wi-Fi;
2)設(shè)計(jì)一個(gè)大規(guī)模Embedding方法,具體實(shí)現(xiàn)按以下步驟實(shí)現(xiàn):
2.1)整理Embedding方法的數(shù)據(jù)樣本,將每一個(gè)用戶的Wi-Fi序列經(jīng)過滑動(dòng)窗口進(jìn)行加窗處理,窗口內(nèi)的Wi-Fi記為局部信息,對掃描過的Wi-Fi進(jìn)行隨機(jī)采樣得到一組Wi-Fi記為全局信息,聯(lián)合局部信息和全局信息作為一組訓(xùn)練的樣本,將窗口后面一個(gè)Wi-Fi來源場景記為這一組訓(xùn)練樣本的標(biāo)簽;
2.2)采用一個(gè)三層神經(jīng)網(wǎng)絡(luò)模型將Wi-Fi進(jìn)行Embedding,使其映射到一個(gè)高維空間,將樣本中Wi-Fi的One-Hot獨(dú)熱編碼輸入到該三層神經(jīng)網(wǎng)絡(luò)中,該神經(jīng)網(wǎng)絡(luò)輸入層與隱藏層之間設(shè)有大小為詞典大小n乘以向量長度d的權(quán)重矩陣,將輸入的One-Hot編碼乘以權(quán)重矩陣得到d維長度的向量即為隱藏層d個(gè)神經(jīng)元,將隱藏層每一個(gè)神經(jīng)元累加得到一個(gè)神經(jīng)元然后輸入到激活函數(shù)Sigmoid函數(shù)中,得到的值即為預(yù)測的窗口后面Wi-Fi出現(xiàn)的概率,使用AUC、LogLoss這些評價(jià)指標(biāo)計(jì)算預(yù)測誤差,再使用反向傳播的方式更新迭代每一層的參數(shù)直到收斂;根據(jù)這個(gè)三層神經(jīng)網(wǎng)絡(luò),即Embedding映射關(guān)系,將每一個(gè)Wi-Fi Embedding成一個(gè)高維空間的向量,使每一個(gè)向量與Wi-Fi一一對應(yīng),并保留其對應(yīng)Wi-Fi的特征;
3)對學(xué)習(xí)到的Embedding向量進(jìn)行評估,首先,在已標(biāo)注的類別下對學(xué)習(xí)到的Wi-Fi的新的向量,在同一個(gè)類別下計(jì)算兩兩之間的余弦相似度,得到每個(gè)類別下的平均余弦相似度,然后,再計(jì)算不同類別下的Wi-Fi的平均余弦相似度,設(shè)定一個(gè)閾值,當(dāng)類內(nèi)類間比小于這個(gè)閾值時(shí),就認(rèn)為該Embedding向量有好的表達(dá)效果;將學(xué)習(xí)到的Wi-Fi Embedding之后的向量用PCA方式降維,再作為輸入用TSNE和Tensorboard進(jìn)行可視化,直接觀察向量的聚攏效果;
4)對學(xué)習(xí)到的向量用Kmeans方法進(jìn)行聚類,具體實(shí)現(xiàn)按以下具體步驟執(zhí)行:
4.1)確定要聚類的類別K,從所有學(xué)習(xí)到的Wi-Fi向量中隨機(jī)選擇K個(gè)樣本點(diǎn)作為K個(gè)聚類中心點(diǎn);
4.2)分別計(jì)算其余每個(gè)樣本點(diǎn)到這K個(gè)聚類中心點(diǎn)的距離,選擇最近的一個(gè)聚類中心點(diǎn)與其為同一類別;
4.3)對于4.2)中同一類別的所樣本點(diǎn),通過求平均樣本點(diǎn)的方法重新選擇其聚類中心點(diǎn),重復(fù)4.2)的步驟直到所有的樣本點(diǎn)的內(nèi)容不再發(fā)生改變;
4.4)多次重復(fù)以上步驟選擇最優(yōu)的聚類結(jié)果。
3.一種使用權(quán)利要求1或2所述聚類方法的聚類系統(tǒng),其特征在于,包括:
數(shù)據(jù)處理模塊,包括方法樣本數(shù)據(jù)抽取單元和樣本數(shù)據(jù)處理單元;所述數(shù)據(jù)抽取單元是指從數(shù)據(jù)倉庫HIVE中的用戶行為數(shù)據(jù)記錄中抽取出制造樣本所需的數(shù)據(jù),包括UserID、連接Wi-Fi時(shí)間、Wi-FiID;所述樣本數(shù)據(jù)處理單元用于將抽取出的數(shù)據(jù)整理成樣本的形式,通過Spark讀取樣本數(shù)據(jù)抽取模塊中數(shù)據(jù),將每個(gè)用戶連接過的Wi-Fi按照時(shí)間順序整理成序列;
算法實(shí)現(xiàn)模塊,基于分布式計(jì)算框架參數(shù)服務(wù)器PS-Lite,PS-Lite由一系列Server節(jié)點(diǎn)和一系列Worker節(jié)點(diǎn)組成,每個(gè)Server節(jié)點(diǎn)分配到輸入層到隱藏層之間的部分參數(shù)權(quán)重,所有的Server節(jié)點(diǎn)共同維護(hù)神經(jīng)網(wǎng)絡(luò)中的所有參數(shù);每個(gè)Worker對分配給自己的數(shù)據(jù)進(jìn)行梯度計(jì)算處理,再將計(jì)算好的梯度情況通過push的形式發(fā)送給相應(yīng)的Server,Server將參數(shù)更新后,再采用pull的形式將新的參數(shù)傳送給Worker節(jié)點(diǎn)進(jìn)行下一輪的迭代計(jì)算;
評估模塊,該評估模塊主要分為兩部分,一部分是對學(xué)習(xí)到的向量的一個(gè)量化的評估,將學(xué)習(xí)到的Wi-Fi的向量在標(biāo)注數(shù)據(jù)中分別計(jì)算類內(nèi)、類間余弦相似度,通過量化同類別以及不同類別下的Wi-Fi的向量的表達(dá)的差異來評估向量的優(yōu)劣;另一部分是對學(xué)習(xí)到的向量的一個(gè)可視化,首先通過降維的方式,將學(xué)習(xí)到的向量,其向量的長度上百維,降維到二至三維,然后使用不同的可視化方式將其展現(xiàn)出來,能夠直觀的觀察到標(biāo)注類別下同類別的Wi-Fi向量的聚攏程度。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于華南理工大學(xué),未經(jīng)華南理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810096348.3/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 防止技術(shù)開啟的鎖具新技術(shù)
- 技術(shù)評價(jià)裝置、技術(shù)評價(jià)程序、技術(shù)評價(jià)方法
- 防止技術(shù)開啟的鎖具新技術(shù)
- 視聽模擬技術(shù)(VAS技術(shù))
- 用于技術(shù)縮放的MRAM集成技術(shù)
- 用于監(jiān)測技術(shù)設(shè)備的方法和用戶接口、以及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 用于監(jiān)測技術(shù)設(shè)備的技術(shù)
- 技術(shù)偵查方法及技術(shù)偵查系統(tǒng)
- 使用投影技術(shù)增強(qiáng)睡眠技術(shù)
- 基于技術(shù)庫的技術(shù)推薦方法





