[發明專利]一種基于防偽溯源系統的異常數據處理方法及系統有效
| 申請號: | 201710221560.3 | 申請日: | 2017-04-06 |
| 公開(公告)號: | CN107038593B | 公開(公告)日: | 2020-07-21 |
| 發明(設計)人: | 胡建國;晏斌;鄧成謙;林培祥;黃家誠;李凱祥 | 申請(專利權)人: | 廣東順德中山大學卡內基梅隆大學國際聯合研究院;中山大學 |
| 主分類號: | G06Q30/00 | 分類號: | G06Q30/00;G06K9/62;G06F16/25;G06F16/29;G06F16/215;G06F16/26 |
| 代理公司: | 廣州粵高專利商標代理有限公司 44102 | 代理人: | 林麗明 |
| 地址: | 528300 廣東省佛山市順德區大良*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 防偽 溯源 系統 異常 數據處理 方法 | ||
1.一種基于防偽溯源系統的異常數據處理方法,其特征在于,包括以下步驟:
S1:獲取用戶信息,查詢產品真偽情況;獲取用戶信息具體為:獲取用戶輸入的基本信息、商品信息、查詢信息和購買途徑,基本信息包括ID、性別、年齡,商品信息包括價格、種類、用途,查詢信息包括空間位置、時間,購買途徑為線上和線下,線上途徑包括網站、店鋪,線下途徑為店鋪;
S2:根據獲取的信息,利用數據清洗、數據集成、數據變換和數據歸約方法對數據進行預處理;具體包括以下步驟:
S2.1:檢查用戶輸入的各項屬性,若存在空值,則將記錄刪除;
S2.2:對價格、時間輸入統一格式:價格提取整數部分,刪除小數部分和貨幣符號,時間保留年、月、日、時、分信息;
S2.3:將數據依據預收的規則進行變換,包括對地理位置的經緯度依據一定的變換關系,擴大數據間的差異;
S2.4:對短時間內反復出現的相同數據點,標記為異常行為,只記錄1次;對用戶與其反饋店鋪反復成對出現的數據點,標記為異常行為,只記錄為1次;
S3:針對數據集進行異常檢測,去除異常點干擾;具體包括以下步驟:
S3.1:對輸入數據Di進行處理,使用相同的半徑,將輸入數據劃分成不同的類,當類中所包含的數量大于所設閾值K時,證明其不是離群點,將其刪除;
S3.2:使用FCM聚類算法對步驟S3.2獲取到的數據進行聚類,數據集記為D=(D1,D2,D3,..,Dc),其中c為聚類數量,Di為具體類別中所含數量,ri為聚類半徑,則根據以下公式計算密度Den:
根據Den的數值對其進行排序,密度較低的幾個類,就最大可能包含離群點;
S3.3:使用最近鄰算法查找離群點;
S3.4:在輸入數據Di中,將步驟S3.3獲取的離群點刪除,結果即為有效點集;
S4:針對線下數據集利用基于距離的方法找到最可疑假冒源;針對線上數據集采用基于頻率的分類方法,找出最可疑假冒源;
S5:標記不良店鋪,并發送標記結果到數據庫。
2.根據權利要求1所述的基于防偽溯源系統的異常數據處理方法,其特征在于,步驟S4中,針對線下數據集利用基于距離的方法找到最可疑假冒源,具體包括以下步驟:
S4.1:使用K-Means算法對有效點集進行聚類,數據集記為Pi,i∈[0,c],其中c為聚類數量;
S4.2:當簇中數量達到閾值時,其聚類中心即標記為假冒源中心點;
S4.3:根據步驟S2.3的地理位置變換,對聚類中心進行相應逆變換,得到假冒源的地理位置,尋找數據集內距離聚類中心最近的點,即為假冒源。
3.根據權利要求2所述的基于防偽溯源系統的異常數據處理方法,其特征在于,步驟S4中,針對線上數據集采用基于頻率的分類方法,找出最可疑假冒源,具體包括:
在Pi中對相同數據點出現次數進行累加,對累加結果進行排序,累加結果超過所設閾值的即為假冒源。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣東順德中山大學卡內基梅隆大學國際聯合研究院;中山大學,未經廣東順德中山大學卡內基梅隆大學國際聯合研究院;中山大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710221560.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:電梯人機界面(超薄)
- 下一篇:音樂殺蟲燈





