[發明專利]一種基于GBDT算法模型的非法語音識別方法及系統在審
| 申請號: | 202111475930.9 | 申請日: | 2021-12-06 |
| 公開(公告)號: | CN114155880A | 公開(公告)日: | 2022-03-08 |
| 發明(設計)人: | 張飛;丁正;顧曉東;董偉 | 申請(專利權)人: | 上海欣方智能系統有限公司;上海欣方軟件有限公司 |
| 主分類號: | G10L25/51 | 分類號: | G10L25/51;G10L25/03;G06K9/62 |
| 代理公司: | 北京德琦知識產權代理有限公司 11018 | 代理人: | 牛崢;王麗琴 |
| 地址: | 201203 上海市浦東*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 gbdt 算法 模型 非法 語音 識別 方法 系統 | ||
本申請公開了一種基于梯度提升決策樹(GBDT)算法模型的非法語音識別方法及系統,本申請實施例獲取通信網絡中的呼叫詳細記錄(CDR)中的通話數據后,從中提取特征數據,得到特征數據;將得到的特征數據輸入訓練得到的GBDT算法模型中,輸出得到所述語音的識別結果,所述語音的識別結果包括所述語音是否為非法語音及非法語音的類別。這樣,本申請實施例就可以基于GBDT算法模型準確識別出通信網絡中的非法語音的類別。
技術領域
本發明涉及計算機人工智能技術領域,,特別涉及一種基于梯度提升決策樹(GBDT)算法模型的非法語音識別方法及系統。
背景技術
隨著互聯網時代的高速發展,人們生活也發生了巨大的變化。用戶之間可以采用用戶終端實現語音通話或短信交互,多種多樣的應用也進入到人們的視野中。但也給我們生活帶來便利的同時,也產生了很多潛在的危險,用戶個人隱私在互聯網中的泄露有可能被詐騙分子有機可乘,甚至導致了個人財產損失。近年來,電信詐騙成爆發式增長,詐騙手法層出不窮,詐騙中所使用的技術手段也不斷升級。電信詐騙是指通過電話,編造虛假信息,設置騙局,對受害人實施遠程、非接觸式詐騙,誘使受害人打款或轉賬的犯罪行為,通常以冒充他人及仿冒、偽造各種合法外衣和形式的方式達到欺騙的目的,如冒充公檢法、商家公司廠家、國家機關工作人員、銀行工作人員等各類機構工作人員,偽造和冒充招工、刷單、貸款、手機定位和招嫖等形式進行詐騙。隨著科技的發展,一系列技術工具的開發出現和被使用,詐騙分子借助于移動終端或固定電話等通信工具,及現代的技術等實施非接觸式的詐騙迅速地發展蔓延,給人民群眾造成了很大的損失。在這種情況下,需要對網絡中的語音進行識別,從中識別出非法語音,并針對識別出的非法語音進行諸如屏蔽或提醒用戶的相關處理,以減少或避免用戶的損失。
因此,如何準確識別出通信網絡中的非法語音,特別識別出通信網絡中的非法語音的類別是一個亟待解決的問題。
發明內容
有鑒于此,本申請實施例提供一種基于GBDT算法模型的非法語音識別方法及系統,能夠準確識別出通信網絡中的非法語音及非法語音類別。
本申請實施例是這樣實現的:
一種基于梯度提升決策樹GBDT算法模型的非法語音識別方法,所述方法包括:
獲取通信網絡的呼叫詳細記錄CDR中的通話數據后,從中提取特征數據;
將得到的特征數據輸入訓練得到的GBDT算法模型中,輸出得到所述語音的識別結果,所述語音的識別結果包括所述語音是否為非法語音及非法語音的類別。
較佳地,所述得到特征數據包括:
提取得到符合訓練得到的GBDT算法模型輸入的特征數據。
較佳地,所述訓練得到GBDT算法模型包括:
獲取通信網絡的CDR中的通話數據,采用K均值聚類K-Means算法進行聚類采樣,形成特征數據集合,包括訓練子集合與測試子集合;
采用5折交叉驗證方式,基于訓練子集合訓練GBDT算法模型后,基于測試子集合驗證GBDT算法模型,計算得出GBDT算法模型的評估指標,確定訓練得到的GBDT算法模型滿足所設置的評估指標;
將訓練得到的GBDT算法模型設置在通信網絡中的網絡側,對通信網絡中的CDR通話數據進行非法語音的分類處理。
較佳地,所述采用K-Means算法進行聚類采樣包括:
將所述通話數據基于K-Means算法進行聚類,分為第一特征數據集,包括少數類數據集和多數類數據集;
基于合成少數類過采樣smote方法,對其中的少數類數據集進行過采樣后,得到采樣后的少數類數據集;
對得到的采樣后的少數類數據集進行有回放的過采樣及隨機線性插值處理后,與少數類數據集合成后,進行清洗;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海欣方智能系統有限公司;上海欣方軟件有限公司,未經上海欣方智能系統有限公司;上海欣方軟件有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111475930.9/2.html,轉載請聲明來源鉆瓜專利網。





