[發明專利]基于隨機森林算法的騷擾電話識別方法及系統在審
| 申請號: | 201910339683.6 | 申請日: | 2019-04-25 |
| 公開(公告)號: | CN110147430A | 公開(公告)日: | 2019-08-20 |
| 發明(設計)人: | 周紅敏;祝敬安;王紅熳;韋紅;丁正;顧曉東;張飛;賈巖峰;劉艷 | 申請(專利權)人: | 上海欣方智能系統有限公司;上海欣方軟件有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/35 |
| 代理公司: | 北京紐樂康知識產權代理事務所(普通合伙) 11210 | 代理人: | 白明珠 |
| 地址: | 201203 上海市浦東新*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 騷擾電話 隨機森林 算法 新樣本 構建 原始數據集 反序列化 交叉驗證 接口方式 模型序列 通話記錄 效果評估 可用性 初始化 過采樣 誤判 上線 調用 驗證 預測 部署 | ||
本發明公開了基于隨機森林算法的騷擾電話識別方法和系統,利用SMOTE算法對所述原始數據集進行過采樣后生成新樣本集;根據所述新樣本集構建騷擾電話識別模型,并初始化所述騷擾電話識別模型中隨機森林參數;利用十折交叉驗證訓練騷擾電話識別模型后進行驗證,并計算其識別效果評估值;獲取最優騷擾電話識別模型,利用pickle依次將最優騷擾電話識別模型序列化和反序列化后構建API,將最優騷擾電話識別模型以接口方式部署上線;待測通話記錄到達時,調用API接口,將數據輸入到最優騷擾電話識別模型進行預測。本發明有益效果:不僅有效避免人工誤判和漏判行為,而且降低模型的誤差,同時,提高模型的可用性和實用性。
技術領域
本發明涉及自然語言處理領域,具體來說,涉及一種基于隨機森林算法的騷擾電話識別方法及系統。
背景技術
騷擾電話推銷產品或者是一些冒充警方、銀行工作人員故意進行電話騷擾的行為,騷擾電話具有很強的干擾性、誘惑力與欺騙性,而且容易偽裝,撥打次數頻繁和不易破案,嚴重危害了人民的正常生活和個人隱私。
針對相關技術中的問題,目前尚未提出有效的解決方案。
發明內容
針對相關技術中的上述技術問題,本發明提出一種基于隨機森林算法的騷擾電話識別方法和系統,能夠有效快速識別騷擾電話,有效解決人為誤判和漏判騷擾電話問題。
為實現上述技術目的,本發明的技術方案是這樣實現的:
一種基于隨機森林算法的騷擾電話識別方法,包括以下步驟:
處理原始數據集,確定正負騷擾電話樣本的分布比例;
針對不平衡的騷擾電話樣本,采用SMOTE算法對所述原始數據集進行過采樣后生成新樣本集,平衡數據分布;
根據所述新樣本集構建騷擾電話識別模型,并初始化所述騷擾電話識別模型中隨機森林參數,設置隨機森林參數輸入、輸出變量;
利用十折交叉驗證訓練騷擾電話識別模型后進行驗證,并計算其識別效果評估值;
采用網絡搜索獲取最優騷擾電話識別模型,提高隨機森林的精準度,提高訓練效率,利用pickle依次將最優騷擾電話識別模型序列化和反序列化后構建API,將最優騷擾電話識別模型以接口方式部署上線;
待測通話記錄到達時,調用API接口,將數據輸入到最優騷擾電話識別模型進行預測。
進一步地,利用SMOTE算法對所述原始數據集進行過采樣后生成新樣本集包括:
對少數類的騷擾電話樣本進行分析,并根據所述騷擾電話樣本人工合成新樣本添加到原始數據集中;
每個少數類的騷擾電話樣本,從其最近鄰中隨機選取若干第一樣本;
在騷擾電話樣本和第一樣本的連線上隨機選取第二樣本。
進一步地,針對所述新樣本集構建騷擾電話識別模型,并初始化所述騷擾電話識別模型中隨機森林參數包括:
設置隨機森林參數,其中,所述隨機森林參數包括決策樹的個數、有放回的采樣、信息增益、最適屬性時劃分的特征和樹的最大深度;
計算屬性的信息增益,選取最合適的節點,子節點重復計算信息增益,并選取信息增益最大節點,依次論推,生成多棵樹,所述信息增益的計算公式如下:
g(D,A)=H(D)-H(D|A)
其中,H(D)為經驗熵,H(D|A)為選定特征A的經驗條件熵;
根據隨機森林參數和信息增益值構建隨機森林,利用隨機森林算法訓練多顆決策樹生成騷擾電話識別模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海欣方智能系統有限公司;上海欣方軟件有限公司,未經上海欣方智能系統有限公司;上海欣方軟件有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910339683.6/2.html,轉載請聲明來源鉆瓜專利網。





