[發明專利]一種數據流處理方法、裝置、計算設備及存儲介質在審
| 申請號: | 202010768030.2 | 申請日: | 2020-08-03 |
| 公開(公告)號: | CN111881995A | 公開(公告)日: | 2020-11-03 |
| 發明(設計)人: | 趙曦濱;萬海;張豪;黃瀟 | 申請(專利權)人: | 清華大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06N3/08;G06F17/11 |
| 代理公司: | 北京科領智誠知識產權代理事務所(普通合伙) 11782 | 代理人: | 陳士騫 |
| 地址: | 100089*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 數據流 處理 方法 裝置 計算 設備 存儲 介質 | ||
本說明書公開一種數據流處理方法、裝置、計算設備及存儲介質,其中所述數據流處理方法包括:接收待處理數據;將待處理數據輸入異常檢測模型,得到預測標簽,所述異常檢測模型通過引入在線優化的代價向量訓練得到;根據預測標簽對待處理數據進行分類。所述異常檢測模型的參數根據并行處理相同數據的另兩個模型的參數進行調整,根據代價向量取值不同的模型對數據處理的效果來優化該模型的參數,實現根據數據處理的效果對參數取值進行反饋調整,從而減少了現有技術中單純依靠先驗知識取值的不確定性,可以實時在線優化代價向量,更合理地應對數據的不平衡分布。
技術領域
本發明涉及機器學習領域,具體而言,涉及一種數據流處理方法、裝置、計算設備及存儲介質。
背景技術
眾所周知,機器學習是數據科學,模型通過訓練數據以對其背后潛藏的數據分布進行擬合,從而對新產生的未知數據做出正確的判斷,其中,數據的不平衡分布,會對大多數算法的分類效果產生不利影響。數據的不平衡分布是指在分類問題中,不同類別所擁有的樣本數量差異懸殊,由于某些類別的樣本個數過少,常常導致模型在訓練過程中無法對該類別的數據分布進行充分擬合。而在很多場景下,所需要關注的恰恰是少數類別,例如在異常檢測任務中,異常數據往往比正常數據要重要得多,如果模型誤判了一個正常數據,那么只需要進行進一步檢測確認即可,但漏報一個異常樣本卻可能帶來無法挽回的巨大損失。
代價敏感機制是一種算法層方法,主要思想是為模型在不同類別上的預測錯誤賦予不同的錯誤權重,在算法進行更新時,不同的類別具有不同的更新權重。例如,在異常檢測的任務中,當模型漏報一個異常樣本時,代價敏感機制會以一個較大的權重來更新模型,以此使得決策邊界距離異常數據足夠遠,提高模型對異常數據的敏感度。然而,在現有技術中,代價向量的設置只能依靠行業先驗知識,為代價向量設置合適的取值是一個十分困難的問題。
綜上,研究一種能夠在線優化代價向量的數據處理方法,以提高機器學習中模型學習數據分布的能力,成為亟待解決的問題。
發明內容
本說明書提供一種數據流處理方法、裝置、計算設備及存儲介質,用以克服現有技術中存在的至少一個技術問題。
根據本說明書實施例的第一方面,提供一種數據流處理方法,包括:接收待處理數據;將待處理數據輸入異常檢測模型,得到預測標簽,所述異常檢測模型通過引入在線優化的代價向量訓練得到;根據預測標簽對待處理數據進行分類。
優選的,所述異常檢測模型的訓練步驟,包括:
根據預先獲得的參數化方程分別初始化三個異常檢測模型代價向量,將三個異常檢測模型的分數置零,所述三個異常檢測模型僅代價向量的特征參數取值不同,且并行處理相同的數據流,其中第二異常檢測模型的特征參數的取值為第一異常檢測模型的特征參數減去范圍參數,第三異常檢測模型的特征參數的取值為第一異常檢測模型的特征參數的加上范圍參數;
接收待測樣本,將待測樣本輸入所述第一異常檢測模型、所述第二異常檢測模型以及第三異常檢測模型,分別得到第一預測標簽、第二預測標簽以及第三預測標簽;
接收待測樣本對應的真實標簽,根據真實標簽與所述第一預測標簽、第二預測標簽以及第三預測標簽是否一致,對所述第一異常檢測模型、所述第二異常檢測模型、所述第三異常檢測模型進行更新;
在更新參數模型后,對所述第一異常檢測模型、所述第二異常檢測模型以及所述第三異常檢測模型在樣本數據上的表現進行評分,得到第一分數、第二分數、第三分數;
在接收到預設數目的待測樣本之后,根據第二異常檢測模型的代價向量以及第二分數、第三異常檢測模型的代價向量以及第三分數和預設的特征參數迭代公式,更新第一異常檢測模型的代價向量的特征參數,以及更新所述第一異常檢測模型、所述第二異常檢測模型以及第三異常檢測模型的代價向量;將三個異常檢測模型分數置零,繼續接收待測樣本,并不斷更新所述第一異常檢測模型的代價向量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清華大學,未經清華大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010768030.2/2.html,轉載請聲明來源鉆瓜專利網。





