[發明專利]一種基于改進的主動學習技術的電信欺詐分類檢測方法有效
| 申請號: | 201811301410.4 | 申請日: | 2018-11-02 |
| 公開(公告)號: | CN109492026B | 公開(公告)日: | 2021-11-09 |
| 發明(設計)人: | 萬辛;劉冠男;郭佳;林浩;安茂波;李鵬;高圣翔;黃遠;沈亮 | 申請(專利權)人: | 國家計算機網絡與信息安全管理中心 |
| 主分類號: | G06F16/2458 | 分類號: | G06F16/2458;G06Q50/30 |
| 代理公司: | 北京永創新實專利事務所 11121 | 代理人: | 冀學軍 |
| 地址: | 100029*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 改進 主動 學習 技術 電信 欺詐 分類 檢測 方法 | ||
1.一種基于改進的主動學習技術的電信欺詐分類檢測方法,其特征在于,具體步驟如下:
步驟一、收集電信網中某段時間內的呼叫詳細數據,隨機等概率抽取數量為X的數據作為樣本,并劃分訓練集和測試集;
訓練集樣本比例為A%,則訓練集的樣本總量為A%*X;測試集的樣本總量為(1-A%)*X;
步驟二、從訓練集中隨機等概率抽取B%的樣本進行人工標記,并將所有標記樣本視為初始訓練集,其余訓練集樣本視為未標記樣本;
步驟三、對初始訓練集樣本、未標記樣本以及測試集樣本分別進行數據清洗,并根據實際需要對每個樣本均提取M維數據特征進行處理轉換,用于后續機器學習模型輸入;
步驟四、初始化主動學習算法的迭代參數;
步驟五、判斷當前訓練集中正類樣本數量與負類樣本數量的比值是否小于閾值e,如果是,則采用重采樣技術SMOTE對樣本進行調整,并返回步驟二;否則進入步驟六;
當前訓練集初始值選用初始訓練集;
步驟六、根據當前訓練集中每個樣本提取的數據特征,訓練用于欺詐檢測的有監督分類器f,以及構造用于問詢樣本可信類別概率的強組合分類器F;
強組合分類器F的投票結果作為樣本的潛在類別分布;
步驟七、將未標記數據樣本逐個放入訓練好的有監督分類器f中進行類別評分;
步驟八、將每個未標記樣本的類別評分結果,分別輸入主動學習采樣算法,結合該樣本被分錯的概率和樣本信息量大小,得到每個未標記樣本關于其信息量大小的評分;
第j個未標記樣本的評分MISj,具體計算公式如下:
x*表示的是當前未標記樣本集合中信息量最大的數據樣本集合,Pθ(yi|xj)表示強組合分類器F中的一個假設所預測的實例xj的類概率,Pes(yi|xj)表示強組合分類器F最終預測的xj的類概率大小,N代表強組合分類器F中的分類器個數;θ∈Θ代表一個假設所使用的參數集合,I(xj)是用來測量一個樣本是否滿足信息熵最大的指示器函數,取值為1或0;P(yi|xj)由用于欺詐檢測的有監督分類器f預測的xj的類概率分布;
如果第j個未標記樣本根據公式獲得分數等于x*,則I(xj)值為1,否則為0;MISj反映了第j個未標記樣本被誤分情況以及信息量大小的綜合研判;
步驟九、將所有評分值由大至小排序,選取信息量最大的前D個未標記樣本進行標注,并加入訓練集中;
步驟十、判斷當前訓練集樣本數量是否大于等于X1,或者迭代次數是否大于等于C,如果是,則主動學習采樣算法停止,輸出分類器f,進入步驟十一;否則,未標記樣本數量減少D個樣本,迭代次數增計一次,返回步驟五;
設置最大迭代步數C、每次迭代步長D以及訓練集最大樣本數量X1;
步驟十一、使用訓練好的分類器f在測試集上進行分類效果測試,對電信欺詐的呼叫數據進行分類。
2.如權利要求1所述的一種基于改進的主動學習技術的電信欺詐分類檢測方法,其特征在于,步驟二中所述的人工標記的樣本數量為A%*B%*X;包括:被標記為詐騙的電話記錄,視為正類樣本;被標記為正常電話記錄,視為負類樣本;
未標記樣本數量為A%*(1-B%)*X。
3.如權利要求1所述的一種基于改進的主動學習技術的電信欺詐分類檢測方法,其特征在于,步驟三所述的處理轉換包括:特征歸一化、連續數值離散化、指數/log變換和獨熱編碼。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國家計算機網絡與信息安全管理中心,未經國家計算機網絡與信息安全管理中心許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811301410.4/1.html,轉載請聲明來源鉆瓜專利網。





