[發明專利]基于隨機森林算法的騷擾電話識別方法及系統在審
| 申請號: | 201910339683.6 | 申請日: | 2019-04-25 |
| 公開(公告)號: | CN110147430A | 公開(公告)日: | 2019-08-20 |
| 發明(設計)人: | 周紅敏;祝敬安;王紅熳;韋紅;丁正;顧曉東;張飛;賈巖峰;劉艷 | 申請(專利權)人: | 上海欣方智能系統有限公司;上海欣方軟件有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/35 |
| 代理公司: | 北京紐樂康知識產權代理事務所(普通合伙) 11210 | 代理人: | 白明珠 |
| 地址: | 201203 上海市浦東新*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 騷擾電話 隨機森林 算法 新樣本 構建 原始數據集 反序列化 交叉驗證 接口方式 模型序列 通話記錄 效果評估 可用性 初始化 過采樣 誤判 上線 調用 驗證 預測 部署 | ||
1.一種基于隨機森林算法的騷擾電話識別方法,其特征在于,包括以下步驟:
處理原始數據集,確定正負騷擾電話樣本的分布比例;
利用SMOTE算法對所述原始數據集進行過采樣后生成新樣本集;
根據所述新樣本集構建騷擾電話識別模型,并初始化所述騷擾電話識別模型中隨機森林參數;
利用十折交叉驗證訓練騷擾電話識別模型后進行驗證,并計算其識別效果評估值;
獲取最優騷擾電話識別模型,利用pickle依次將最優騷擾電話識別模型序列化和反序列化后構建API,將最優騷擾電話識別模型以接口方式部署上線;
待測通話記錄到達時,調用API接口,將數據輸入到最優騷擾電話識別模型進行預測。
2.根據權利要求1所述的基于隨機森林算法的騷擾電話識別方法,其特征在于,利用SMOTE算法對所述原始數據集進行過采樣后生成新樣本集包括:
對少數類的騷擾電話樣本進行分析,并根據所述騷擾電話樣本人工合成新樣本添加到原始數據集中;
每個少數類的騷擾電話樣本,從其最近鄰中隨機選取若干第一樣本;
在騷擾電話樣本和第一樣本的連線上隨機選取第二樣本。
3.根據權利要求1所述的基于隨機森林算法的騷擾電話識別方法,其特征在于,針對所述新樣本集構建騷擾電話識別模型,并初始化所述騷擾電話識別模型中隨機森林參數包括:
設置隨機森林參數,其中,所述隨機森林參數包括決策樹的個數、有放回的采樣、信息增益、最適屬性時劃分的特征和樹的最大深度;
計算屬性的信息增益,選取最合適的節點,子節點重復計算信息增益,并選取信息增益最大節點,依次論推,生成多棵樹,所述信息增益的計算公式如下:
g(D,A)=H(D)-H(D|A)
其中,H(D)為經驗熵,H(D|A)為選定特征A的經驗條件熵;
根據隨機森林參數和信息增益值構建隨機森林,利用隨機森林算法訓練多顆決策樹生成騷擾電話識別模型。
4.根據權利要求1-3任一項所述的基于隨機森林算法的騷擾電話識別方法,其特征在于,該方法還包括,所述識別效果評估值對所述騷擾電話識別模型進行評估,其中,所述識別效果評估值包括精準率、召回率和F1-score,其計算公式分別如下:
Precision(精準率)=TP/(TP+FP)
Recall(召回率)=TP/(TP+FN)
F1-score=2*Precision*Recall/(Precision+Recall)
其中,TP代表樣本為正,預測結果為正的個數,FP代表樣本為負,預測結果為正的個數,FN代表樣本為正,預測結果為負的個數。
5.一種基于隨機森林算法的騷擾電話識別系統,其特征在于,包括:
確定模塊,用于處理原始數據集,確定正負騷擾電話樣本的分布比例;
生成模塊,用于利用SMOTE算法對所述原始數據集進行過采樣后生成新樣本集;
第一構建模塊,用于根據所述新樣本集構建騷擾電話識別模型,并初始化所述騷擾電話識別模型中隨機森林參數;
驗證模塊,用于利用十折交叉驗證訓練騷擾電話識別模型后進行驗證,并計算其識別效果評估值;
獲取模塊,用于獲取最優騷擾電話識別模型,利用pickle依次將最優騷擾電話識別模型序列化和反序列化后構建API,將最優騷擾電話識別模型以接口方式部署上線;
識別模塊,用于待測通話記錄到達時,調用API接口,將數據輸入到最優騷擾電話識別模型進行預測。
6.根據權利要求5所述的基于隨機森林算法的騷擾電話識別系統,其特征在于,所述生成模塊包括:
分析模塊,用于對少數類的騷擾電話樣本進行分析,并根據所述騷擾電話樣本人工合成新樣本添加到原始數據集中;
第一選取模塊,用于每個少數類的騷擾電話樣本,從其最近鄰中隨機選取若干第一樣本;
第二選取模塊,用于在騷擾電話樣本和第一樣本的連線上隨機選取第二樣本。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海欣方智能系統有限公司;上海欣方軟件有限公司,未經上海欣方智能系統有限公司;上海欣方軟件有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910339683.6/1.html,轉載請聲明來源鉆瓜專利網。





