[發明專利]一種基于網格密度的消費者分類標簽融合過濾方法有效
| 申請號: | 202110258151.7 | 申請日: | 2021-03-09 |
| 公開(公告)號: | CN113157816B | 公開(公告)日: | 2023-05-16 |
| 發明(設計)人: | 左毅;趙力澄;孫卓;矢田勝俊 | 申請(專利權)人: | 大連海事大學 |
| 主分類號: | G06F16/28 | 分類號: | G06F16/28;G06F16/2457 |
| 代理公司: | 大連東方專利代理有限責任公司 21212 | 代理人: | 姜玉蓉;李洪福 |
| 地址: | 116026 遼*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 網格 密度 消費者 分類 標簽 融合 過濾 方法 | ||
1.一種基于網格密度的消費者分類標簽融合過濾方法,其特征在于,包括以下步驟:
S1:對消費者樣本數據預處理:將每一個消費者數據作為數值實驗的一個樣本,每個消費者樣本數據包含有消費者樣本特征數據和消費者樣本類別數據;根據所述消費者數據構建消費者分類樣本集:
其中,N表示樣本總量,類別yi∈{1,…,C},C(C≥2)表示樣本類別;Xi表示樣本i的特征,表示樣本特征維度,表示樣本i的第h個特征;令表示所有樣本特征k取值的矩陣;
S2:根據步長對特征空間進行網格劃分并構建初始網格;
根據消費者樣本特征數據以及網格步長進行網格劃分,并構建出劃分后的初始網格;
S3:對所述初始網格中的分類標簽進行融合及過濾處理;
根據所述初始網格為基本網格單元,計算每個網格中所含標簽樣本的類密度δ與隸屬度α,設定參數網格隸屬度閾值θ,根據所述閾值θ識別所述每個網格的隸屬類,當網格中某類隸屬度大于等于該閾值時,則表示該類為網格的隸屬類;
S4:通過機器學習方法,應用融合過濾后的數據集進行消費者分類。
2.根據權利要求1所述的一種基于網格密度的消費者分類標簽融合過濾方法,其特征在于,
根據步長對特征空間進行網格劃分并構建初始網格,所述步驟S2中,具體步驟如下:
S21:對所述特征空間進行劃分;根據所述消費者樣本數據確定特征維度k和輸入步長參數d,對k維特征的每一特征進行等間距劃分,將全空間劃分為等體積的網格單元;其中,d表示網格步長,即每個特征的網格邊的長度;
S22:構建初始網格;通過步長d表示出每個特征所有的取值段集合,對劃分后不同特征的取值段集合,分別取其中一段進行組合,得到一個包含k個元素來自k個特征的取值段集合,即表示為一個網格;
3.根據權利要求1所述的一種基于網格密度的消費者分類標簽融合過濾方法,其特征在于,
所述步驟S3中,具體步驟如下:
S31:計算每個初始網格的α和δ值,其計算式分別如下:
其中,I()表示指示函數,隸屬度α表示網格中某一類標簽樣本占網格中所有樣本的比率,用于衡量該網格隸屬于該類別標簽的概率;αj表示j類在網格內的隸屬度,αj越大表明網格隸屬于j類的概率越大;類密度δ表示網格內某一類標簽樣本在網格中的數量,表示該類別在網格中的聚集程度;δj表示j類在網格內的密度,表示j類樣本在網格中的數量;
S32:設定參數網格隸屬度閾值θ,遍歷所有網格,確定每個網格的隸屬類;當網格中隸屬度和隸屬度閾值滿足maxα=αj,αj≥θ時,則j類為該網格中的隸屬類;若某網格中maxα=αj,αj<θ時,則無法確定網格的隸屬類,此時,該網格需要進一步處理;根據隸屬度及隸屬度閾值無法確定網格的隸屬類時,該網格需要與周圍相鄰的網格分別進行合并,計算并篩選出其與每一個相鄰網格合并后所得網格的最大隸屬度,選取所有合并網格中隸屬度值最大的網格,據隸屬度閾值確定該合并后網格的隸屬類,即max{α1,…,αU}=αu,u∈{1,…,U},U為其相鄰網格數;若滿足條件則停止合并;否則,該網格再次與周圍相鄰網格進行合并,直到能夠確定出合并后網格的隸屬度為止;
S33:當所有網格均確定出網格的隸屬類后,標記相同隸屬類的網格組成聯通區域,遍歷整個數據集,將網格的隸屬類標記到其內樣本數據集,得到新樣本集:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于大連海事大學,未經大連海事大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110258151.7/1.html,轉載請聲明來源鉆瓜專利網。





