[發明專利]數據異常的識別方法、系統、電子設備和介質在審
| 申請號: | 202210398153.0 | 申請日: | 2022-04-13 |
| 公開(公告)號: | CN114579825A | 公開(公告)日: | 2022-06-03 |
| 發明(設計)人: | 李康;吳克賢;陳海強;陸剛;鄒宇 | 申請(專利權)人: | 攜程旅游信息技術(上海)有限公司 |
| 主分類號: | G06F16/9035 | 分類號: | G06F16/9035 |
| 代理公司: | 上海弼興律師事務所 31283 | 代理人: | 林嵩;羅朗 |
| 地址: | 201203 上海市浦東新*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據 異常 識別 方法 系統 電子設備 介質 | ||
本發明公開了一種數據異常的識別方法、系統、電子設備和介質,述識別方法包括:獲取用戶畫像數據的指標參數;所述指標參數用于表征用戶畫像數據變化的參數;判斷所述指標參數是否符合正態分布,若是,則對所述指標參數進行參數異常檢驗,以識別出異常數據,若否,則對所述指標參數采用進行非參數異常檢驗,以識別出異常數據。本發明從而提高了用戶畫像的異常數據識別準確率。
技術領域
本發明涉及計算機技術領域,尤其涉及一種數據異常的識別方法、系統、電子設備和介質。
背景技術
當下在OTA行業中,采用數據驅動業務是一種行業趨勢。基于海量的用戶基礎屬性、交易和瀏覽等行為數據,我們通過數據清洗、聚合、挖掘構建基于用戶的畫像標簽。在生成畫像標簽的過程中,數據是否能夠準確、高效的進入下游流程是需要重點關注的問題。
當前對于用戶畫像數據異常監控的策略主要存在以下的問題:
第一,畫像標簽繁多,相互獨立,且量綱不統一,難以使用單一維度的標準進行量化并異常檢驗;
第二,衡量畫像標簽變化的指標體系,通常為天粒度數據,且具備一定時效性,因此在異常檢驗中可采集的樣本數據較少,無法使用大數據分析方法,需要從傳統統計學方法入手解決;
第三,多個畫像標簽的變化指標數據并不都服從于確定性的參數假設,難以基于參數檢驗的方法對數據進行假設,并進行異常檢驗。
因當前對于用戶畫像數據異常監控的策略存在上述問題,所以,往往帶來用戶畫像的異常數據識別與監控不準確的問題。
發明內容
本發明要解決的技術問題是為了克服現有技術中用戶畫像的異常數據識別準確率低的缺陷,提供一種數據異常的識別方法、系統、電子設備和介質。
本發明是通過下述技術方案來解決上述技術問題:
本發明提供一種數據異常的識別方法,所述識別方法包括:
獲取用戶畫像數據的指標參數;所述指標參數用于表征用戶畫像數據變化的參數;
判斷所述指標參數是否符合正態分布,若是,則對所述指標參數進行參數異常檢驗,以識別出異常數據,若否,則對所述指標參數采用進行非參數異常檢驗,以識別出異常數據。
較佳地,在判斷出所述指標參數不符合正態分布之后,所述識別方法包括:
將所述指標參數進行變換以生成目標參數,并返回所述判斷所述指標參數是否符合正態分布的步驟。
較佳地,在識別出異常數據的步驟之后,所述識別方法還包括:
判斷所述異常數據是否符合預設要求,若是,則對所述異常數據進行過濾;
和/或,觸發所述用戶畫像數據的熔斷,并發送告警信號。
較佳地,所述指標參數包括用戶畫像數據的更新率、用戶畫像數據的變更率、用戶畫像數據的刪除率、用戶畫像數據的向前KL散度以及用戶畫像數據的向后KL散度。
本發明提供一種數據異常的識別系統,所述識別系統包括:
獲取模塊,用于獲取用戶畫像數據的指標參數;所述指標參數用于表征用戶畫像數據變化的參數;
第一判斷模塊,用于判斷所述指標參數是否符合正態分布,若是,則對所述指標參數進行參數異常檢驗,以識別出異常數據,若否,則對所述指標參數采用進行非參數異常檢驗,以識別出異常數據。
較佳地,所述識別系統包括:
變換模塊,用于將所述指標參數進行變換以生成目標參數,并返回所述判斷所述指標參數是否符合正態分布的步驟。
較佳地,所述識別系統還包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于攜程旅游信息技術(上海)有限公司,未經攜程旅游信息技術(上海)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210398153.0/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





