[發明專利]一種基于改進聚類算法的不滿意原因溯源方法在審
| 申請號: | 202111568863.5 | 申請日: | 2021-12-21 |
| 公開(公告)號: | CN114444568A | 公開(公告)日: | 2022-05-06 |
| 發明(設計)人: | 徐珊珊;林克;陸向東;朱堅;王雷 | 申請(專利權)人: | 福建新大陸軟件工程有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 福州市鼓樓區京華專利事務所(普通合伙) 35212 | 代理人: | 林燕 |
| 地址: | 350000 福建省福州*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 改進 算法 不滿意 原因 溯源 方法 | ||
1.一種基于改進聚類算法的不滿意原因溯源方法,其特征在于:包括如下步驟:
步驟S10、獲取大量的不滿意數據,提取各所述不滿意數據的特征數據,以構建第一特征數據集;
步驟S20、剔除所述第一特征數據集中的異常數據,得到第二特征數據集;
步驟S30、基于所述第二特征數據集選取初始聚類中心特征;
步驟S40、基于kmeans聚類算法以及所述初始聚類中心特征創建一聚類模型,利用所述聚類模型對第二特征數據集進行聚類,得到若干個聚類簇;
步驟S50、從各所述聚類簇中篩選出強區分度特征;
步驟S60、利用所述聚類模型將待溯源數據聚類至最近的聚類簇;
步驟S70、基于所述強區分度特征以及聚類簇從待溯源數據中溯源出不滿意原因。
2.如權利要求1所述的一種基于改進聚類算法的不滿意原因溯源方法,其特征在于:所述步驟S20具體包括:
步驟S21、設定所述第一特征數據集包含N個元素和M列特征,構建大小為N*M的矩陣;
步驟S22、遍歷M列所述特征,分別計算各所述特征對應特征值的均值以及標準差,進而構建特征列均值集合{μ1,μ2,...,μm}和特征列標準差集合{σ1,σ2,...,σm};
步驟S23、基于各所述均值以及標準差分別計算每列特征的異常值上界和異常值下界;
步驟S24、基于所述異常值上界和異常值下界分別計算各特征的偏移度,并對各所述偏移度進行歸一化;
步驟S25、對歸一化后的各所述偏移度對特征進行排序得到排序值,統計各所述特征的出現次數,基于所述排序值以及出現次數計算各特征的異常得分,基于所述異常得分對第一特征數據集中的異常數據進行剔除,得到第二特征數據集。
3.如權利要求2所述的一種基于改進聚類算法的不滿意原因溯源方法,其特征在于:所述步驟S23中,
所述異常值上界的計算公式為:異常值上界=μm+3*σm;
所述異常值下界的計算公式為:異常值下界=μm-3*σm。
4.如權利要求2所述的一種基于改進聚類算法的不滿意原因溯源方法,其特征在于:所述步驟S24中,
所述偏移度的計算公式為:偏移度=|特征值-(μm±3*σm)|。
5.如權利要求2所述的一種基于改進聚類算法的不滿意原因溯源方法,其特征在于:所述步驟S25中,
所述異常得分的計算公式為:異常得分=排序值*出現次數;
所述基于所述異常得分對第一特征數據集中的異常數據進行剔除具體為:
剔除所述異常得分的排名在前N*β的特征;其中β為剔除系數,且0<β<1。
6.如權利要求1所述的一種基于改進聚類算法的不滿意原因溯源方法,其特征在于:所述步驟S30具體包括:
步驟S31、構建一與所述第二特征數據集包含相同內容的數據集D,計算所述數據集D中各元素兩兩間的距離,將所述距離最短的兩個元素組合成一個樣本集合Mi(0≤i≤k),并將對應的元素從所述數據集D中刪除;
步驟S32、計算所述樣本集合Mi中所有元素的均值,作為所述樣本集合Mi的中心點;
步驟S33、分別計算所述數據集D中各元素與中心點的距離,將距離最近的元素加入所述樣本集合Mi,并將對應的元素從所述數據集D中刪除;
步驟S34、重新計算所述樣本集合Mi中所有元素的均值以更新中心點;
步驟S35、判斷所述中心點的取值是否大于等于α,若是,則進入步驟S36;若否,則進入步驟S33;其中α表示閾值系數,且0≤α<1;
步驟S36、判斷i是否等于k,若是,則將所述中心點作為初始聚類中心特征;若否,則進入步驟S31;其中i表示樣本集合的編號,k表示樣本集合的總數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于福建新大陸軟件工程有限公司,未經福建新大陸軟件工程有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111568863.5/1.html,轉載請聲明來源鉆瓜專利網。





