[發明專利]基于淺層自學習算法拒絕推斷的設備認證方法及系統、電子設備在審
| 申請號: | 202110475415.4 | 申請日: | 2021-04-29 |
| 公開(公告)號: | CN113298264A | 公開(公告)日: | 2021-08-24 |
| 發明(設計)人: | 張倩倩 | 申請(專利權)人: | 上海淇玥信息技術有限公司 |
| 主分類號: | G06N20/00 | 分類號: | G06N20/00;G06N5/04;G06K9/62;G06F16/2458 |
| 代理公司: | 北京清誠知識產權代理有限公司 11691 | 代理人: | 喬東峰 |
| 地址: | 201500 上海市崇明*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 自學習 算法 拒絕 推斷 設備 認證 方法 系統 電子設備 | ||
1.一種基于自學習算法拒絕推斷的設備認證方法,其特征在于,包括如下步驟:
采集首次認證后被拒絕的設備數據,采用無監督的異常數據識別算法,對輸入的首次認證后被拒絕的設備數據剔除無效數據,其中,首次認證是采用機器自學習的模型進行的;
通過迭代閾值分位數,給無標簽樣本進行打標;
結合確定標簽的無標簽樣本和有標簽的通過樣本,重新訓練整理所述模型,以達到修正模型打分分布的作用;
采用修正好的模型對新設備進行設備認證。
2.根據權利要求1所述的方法,其特征在于,
所述剔除無效數據包括:剔除所述模型輸入樣本的特征空間中與Xa特征空間差異較大的樣本;其中,定義總體樣本X中包含接受樣本,即Xa為接受樣本。
3.根據權利要求1所述的方法,其特征在于,
所述剔除無效數據包括:剔除所述模型輸入樣本中的特征空間與Xa最為接近的一部分拒絕樣本。
4.根據權利要求1至3中任一項所述的方法,其特征在于,
所述剔除的步驟采用孤立森林算法實現。
5.根據權利要求4所述的方法,其特征在于,
所述剔除步驟具體包括:
子步驟1,用Xa訓練孤立森林模型記為g(x);
子步驟2,使用g(x)為Xr樣本進行打分;
子步驟3,根據事先定義的閾值上下限[δ1,δ2],小于閾值和大于閾值部分的樣本剔除;得到用于繼續打標的拒絕樣本Xr*;
其中,定義拒絕樣本,即Xr樣本為拒絕樣本;接受樣本能觀察一定MOB的逾期表現,樣本的逾期表現記為而拒絕樣本則為無標簽樣本。
6.根據權利要求1所述的方法,其特征在于,
所述模型使用帶正則項的邏輯回歸模型。
7.根據權利要求1至3中任一項所述的方法,其特征在于,
所述的打標的步驟具體包括:
對于經過孤立森林算法篩選出的樣本Xr*
子步驟1,使用Xa訓練出一個帶懲罰項的邏輯回歸基模型f(x);
子步驟2,對每個樣本使用f(x)對其打分;
子步驟3,根據給定的超參數α、θ,確定閾值cb,cg,使得
篩選出符合閾值范圍的無標簽拒絕樣本組成的集合為X*;其中α、θ為超參數,θ表示正負樣本之間的倍數;P()表示滿足括號中條件的概率。
8.根據權利要求7所述的方法,其特征在于,
α、θ通過交叉驗證法進行調整,和/或,根據業務的經驗給出θ的取值。
9.根據權利要求7所述的方法,其特征在于,
閾值cb,cg能夠通過正負樣本的更新,動態對基分類器進行更新,從而動態對拒絕樣本進行打標。
10.根據權利要求7所述的方法,其特征在于,
上述打標的步驟還包括:
設置迭代次數為k,每一次迭代重復上述的算法,將每次迭代篩選出的X*加入到Xa中,重新訓練基模型,并進行閾值更新。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海淇玥信息技術有限公司,未經上海淇玥信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110475415.4/1.html,轉載請聲明來源鉆瓜專利網。





