[發明專利]一種基于LGB算法的詐騙電話識別方法在審
| 申請號: | 202011185958.4 | 申請日: | 2020-10-30 |
| 公開(公告)號: | CN112364901A | 公開(公告)日: | 2021-02-12 |
| 發明(設計)人: | 張飛;周紅敏;周榮;程鋼;卜小沖;肖書華;董偉 | 申請(專利權)人: | 上海欣方智能系統有限公司;上海欣方軟件有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06N3/08;H04M3/22 |
| 代理公司: | 北京紐樂康知識產權代理事務所(普通合伙) 11210 | 代理人: | 蘇泳生 |
| 地址: | 201203 上海市浦東新*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 lgb 算法 詐騙 電話 識別 方法 | ||
本發明公開了一種基于LGB算法的詐騙電話識別方法,包括以下步驟:獲取原始通話的數據集;采用SMOTE算法對原始通話的數據集進行采樣,并將數據集分類訓練集和測試集;提取通話話單特征行為,并對模型參數進行初始化;采用十折交叉驗證法訓練模型,使用測試集進行驗證,并計算出模型的精準率,召回率以及F1分數;采用網格搜索獲得最優的LGB模型,并采用pickle模塊將模型序列化;采用pickle模塊將模型反序列化,并用Flask框架構建API;測通話記錄到達時,調用API接口,將數據輸入到LGB預測模型中,模型預測后,將結果返回。本發明提供一種基于LGB算法的詐騙電話識別方法,這種方法可以實現詐騙電話自動分類預測,還能顯著提高公安人員破案效率,降低企業及個人的經濟損失。
技術領域
本發明涉及網絡通信技術領域,具體來說,涉及一種基于LGB算法的詐騙電話識別方法。
背景技術
騷擾電話五花八門,從最初各類中獎,現在的冒充公檢法、理財、購物客服、機票改簽等,實騙花樣逐年翻新,并呈現有“撒網式”到“精準化”的演變趨勢。電話詐騙造成了人民群眾巨大經濟損失,擾亂了人們正常的工作和生活秩序,極大地危害了社會的誠信,已成為嚴重侵害人名群眾切身利益的社會公害。
發明內容
針對相關技術中的問題,本發明提出一種基于LGB算法的詐騙電話識別方法,解決現有電話詐騙造成了人民群眾巨大經濟損失,擾亂了人們正常的工作和生活秩序,極大地危害了社會的誠信的問題。
為了實現上述技術目的,本發明的技術方案是這樣的:
設計一種基于LGB算法的詐騙電話識別方法,包括以下步驟:
步驟S1,獲取原始通話的數據集,人工研判確定正負數據樣本分布比例;
步驟S2,采用SMOTE算法對原始通話的數據集進行采樣,形成最終數據集,并將數據集分類訓練集和測試集;
步驟S3,提取通話話單特征行為,并對模型參數進行初始化;
步驟S4,采用十折交叉驗證法訓練模型,使用測試集進行驗證,并計算出模型的精準率,召回率以及F1分數;
步驟S5,采用網格搜索獲得最優的LGB模型,并采用pickle模塊將模型序列化,保存到服務器;
步驟S6,采用pickle模塊將模型反序列化,并用Flask框架構建API,將模型以接口的方式部署上線;
步驟S7,測通話記錄到達時,調用API接口,將數據輸入到LGB預測模型中,模型預測后,將結果返回。
進一步,所述步驟S1中,數據集為兩個月通話記錄,數據維度為43維,并經過數據清洗、變量衍生、特征篩選后得到LGB的輸入特征值。
進一步,所述步驟S1中,原始通話中的數據經過加密處理。
進一步,所述步驟S2中,SMOTE采樣是對少數類的騷擾電話樣本進行分析,并根據少數類騷擾電話樣本人工合成新樣本添加到數據集中;每個少數樣本a,從它的最近鄰中隨機選擇一個樣本b,然后在樣本a、樣本b的連線上隨機選取一個點作為新合成的少數類樣本c,具體的算法步驟包括:
步驟S21,對于少數類中每一個樣本x,以歐氏距離d為標準,計算它到少數類樣本c中所有樣本的距離,得到k近鄰,其中,歐式距離d的計算公式如下所示:
步驟S22,對于每一個少數類樣本x,從其k近鄰中隨機選擇若干個樣本,假設選擇的近鄰為xn;
步驟S23,對于每一個隨機選出的近鄰xn,進行隨機線性插值,分別與原樣本構建新的樣本;
步驟S24,將新樣本放入原數據,產生新的訓練集;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海欣方智能系統有限公司;上海欣方軟件有限公司,未經上海欣方智能系統有限公司;上海欣方軟件有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011185958.4/2.html,轉載請聲明來源鉆瓜專利網。





