[發明專利]一種基于網格密度的消費者分類標簽融合過濾方法有效
| 申請號: | 202110258151.7 | 申請日: | 2021-03-09 |
| 公開(公告)號: | CN113157816B | 公開(公告)日: | 2023-05-16 |
| 發明(設計)人: | 左毅;趙力澄;孫卓;矢田勝俊 | 申請(專利權)人: | 大連海事大學 |
| 主分類號: | G06F16/28 | 分類號: | G06F16/28;G06F16/2457 |
| 代理公司: | 大連東方專利代理有限責任公司 21212 | 代理人: | 姜玉蓉;李洪福 |
| 地址: | 116026 遼*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 網格 密度 消費者 分類 標簽 融合 過濾 方法 | ||
本發明提供一種基于網格密度的消費者分類標簽融合過濾方法,該方法主要包括三個處理階段,具體包括:對消費者數據樣本進預處理,構建樣本集;消費者每個特征維度的劃分和網格構建處理;網格中分類標簽的融合及過濾處理;最后,利用機器學習方法,應用融合過濾后的數據集進行消費者分類。本發明針對消費者分類中的標簽重疊和數據偏斜問題提出了一個行之有效的解決方法,使原樣本集在標簽重構處理后進行的消費者分類中可以獲得更高的分類精度。
技術領域
本發明涉及行為識別技術領域,具體而言,尤其涉及一種基于網格密度的消費者分類標簽融合過濾方法。
背景技術
在消費者細分領域,數據挖掘和機器學習的分類技術被廣泛的使用。然而,在實際的問題中,由于消費者在購物過程中受環境、主觀認知和行為等因素影響,但在數據采集中不能100%的對所有影響因素進行度量。因此,不同類別所屬的消費者樣本集在某些特征上具有相似甚至相同的表現特征,從而使得消費者標簽特征重疊,導致消費者的識別分類效果不佳,無法滿足實際需求。同時,相關的研究也表明,分類器劃分錯誤往往集中在標簽特征空間的邊界區域,而這正是本發明解決的類標簽重疊問題。
2005年,Prati和Batista等通過人工生成重疊數據對類標簽重疊問題進行了系統分析,結果表明類標簽重疊的程度與類數據特征不均衡有緊密的聯系。在消費者細分問題中,一般會對消費者購買行為進行識別分類,其中就經常存在著購買樣本和非購買樣本的兩種數據量相差較大的標簽不均衡問題。此時,小樣本中的消費者購買識別分類精度偏低,很難對消費者的購買決策作出有效判斷。Garaia和Mollineda等將多個不同類型的分類器,包括K-NN、MLP、NB、RBF和C4.5等,應用在標簽重疊區域的偏斜數據集上,實驗結果表明基于全局學習的分類器僅僅有助于類標簽重疊區域的大類樣本的分類精度提升。
現有文獻經常討論不平衡數據集的解決方案,如數據級和算法級方法。過采樣和欠采樣是最常見的數據級技術,通過調整不同類之間的平衡率來實現類別間的均衡分布;在標簽重疊問題研究中,主要有兩種不同的解決思路,一種是將重疊區域的樣本合并為一個新的類,先進行多分類,然后再針對新的類構建模型進行二分類;另一種是對重疊區域和非重疊區域樣本進行分割學習,構建架不同的分類模型。然而,在現有的這兩種思路的解決方法本質上都是針對不同的分類樣本空間構建不同的分類器,提升了問題復雜度,在具有高不平衡比和類重疊的消費者行為數據集中,這樣的方法可能并不能很好地解決消費者細分中的標簽重疊問題。
發明內容
根據上述提出并不能很好地解決消費者細分中的標簽重疊問題的技術問題,而提供一種基于網格密度的消費者分類標簽融合過濾方法。本發明主要利用一種基于網格密度的消費者分類標簽融合過濾方法,其特征在于,包括以下步驟:
步驟S1:對消費者樣本數據預處理:將每一個消費者數據作為數值實驗的一個樣本;根據所述消費者數據構建消費者分類樣本集:
其中,N表示樣本總量,類別yi∈{1,…,C},C(C≥2)表示樣本類別;Xi表示樣本i的特征,表示樣本特征維度,表示樣本i的第h個特征;令表示所有樣本特征k取值的矩陣;
步驟S2:根據步長對特征空間進行網格劃分并構建初始網格;
根據消費者樣本特征數據以及網格步長進行網格劃分,并構建出劃分后的初始網格;
步驟S3:對所述初始網格中的分類標簽進行融合及過濾處理;
根據所述初始網格為基本網格單元,計算每個網格中所含標簽樣本的類密度δ與隸屬度α,設定參數網格隸屬度閾值θ,根據所述閾值θ識別所述每個網格的隸屬類,當網格中某類隸屬度大于等于該閾值時,則表示該類為網格的隸屬類;
步驟S4:通過機器學習方法,應用融合過濾后的數據集進行消費者分類。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于大連海事大學,未經大連海事大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110258151.7/2.html,轉載請聲明來源鉆瓜專利網。





