[發明專利]違規語料的檢測方法、裝置、計算機設備及存儲介質在審
| 申請號: | 202011609031.9 | 申請日: | 2020-12-30 |
| 公開(公告)號: | CN112686022A | 公開(公告)日: | 2021-04-20 |
| 發明(設計)人: | 南海順 | 申請(專利權)人: | 平安普惠企業管理有限公司 |
| 主分類號: | G06F40/211 | 分類號: | G06F40/211;G06F40/30;G06K9/62;G06N3/08;G06Q30/02 |
| 代理公司: | 深圳市世聯合知識產權代理有限公司 44385 | 代理人: | 汪琳琳 |
| 地址: | 518000 廣東省深圳市前海深港合作區前*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 違規 語料 檢測 方法 裝置 計算機 設備 存儲 介質 | ||
1.一種違規語料的檢測方法,其特征在于,包括下述步驟:
接收預標注的歷史語音文本,基于語音識別技術將所述歷史語音文本轉化為標注語料,其中,所述標注語料攜帶一級標簽,一級標簽包括有違規標簽和無違規標簽,且攜帶有違規標簽的標注語料同時攜帶二級標簽;
基于預設的初始語料分類模型和概率閾值調整所述標注語料,獲得目標訓練語料;
基于所述目標訓練語料和所述一級標簽訓練預設的初始文本分類模型,獲得目標文本分類模型,并基于所述目標訓練語料和所述二級標簽訓練預設的初始語句分類模型,獲得目標語句分類模型;
接收待識別語料,將所述待識別語料輸入至所述目標文本分類模型中,獲得目標一級標簽;
識別所述目標一級標簽是否為有違規標簽,在所述目標一級標簽為有違規標簽時,將所述待識別語料輸入至所述目標語句分類模型中,獲得目標二級標簽。
2.根據權利要求1所述的違規語料的檢測方法,其特征在于,所述基于所述目標訓練語料和所述二級標簽訓練預設的初始語句分類模型,獲得目標語句分類模型的步驟包括:
分批次獲取預設個數的目標訓練語料,分別作為批次訓練樣本;
對每次獲取的批次訓練樣本進行樣本調整,獲得調整后的批次訓練樣本;
分批次基于所述調整后的批次訓練樣本和所述二級標簽訓練預設的初始語句分類模型,獲得所述目標語句分類模型。
3.根據權利要求2所述的違規語料的檢測方法,其特征在于,所述對每次獲取的批次訓練樣本進行樣本調整,獲得調整后的批次訓練樣本的步驟包括:
分別識別二級標簽所對應的批次訓練樣本的比例;
在所述比例小于比例閾值時,對所述二級標簽所對應的剩余的目標訓練語料進行隨機抽樣,獲得抽樣樣本;
將所述抽樣樣本添加入所述批次訓練樣本中,直至所述比例大于所述比例閾值,獲得所述調整后的批次訓練樣本。
4.根據權利要求1所述的違規語料的檢測方法,其特征在于,所述基于所述目標訓練語料和所述一級標簽訓練預設的初始文本分類模型,獲得目標文本分類模型的步驟包括:
計算所有的目標訓練語料的平均長度,根據所述語句長度調整預設的文本分類模型中的卷積核的大小,獲得中間文本分類模型;
基于所述目標訓練語料和所述一級標簽訓練所述中間文本分類模型,獲得目標文本分類模型。
5.根據權利要求1所述的違規語料的檢測方法,其特征在于,所述基于所述目標訓練語料和所述一級標簽訓練預設的初始文本分類模型,獲得目標文本分類模型,并基于所述目標訓練語料和所述二級標簽訓練預設的初始語句分類模型,獲得目標語句分類模型的步驟包括:
基于所述目標訓練語料和所述一級標簽訓練預設的初始文本分類模型,獲得待調整文本分類模型;
基于所述目標訓練語料和所述二級標簽訓練預設的初始語句分類模型,獲得待調整語句分類模型;
基于預設的目標驗證集驗證所述待調整文本分類模型和所述待調整語句分類模型,獲得驗證結果;
確定所述驗證結果是否達標;
在所述驗證結果達標時,完成模型訓練,將所述待調整文本分類模型和所述待調整語句分類模型,分別作為所述目標文本分類模型和目標語句分類模型;
在所述驗證結果不達標時,調整所述目標訓練語料,獲得調整后的目標訓練語料;
基于所述調整后的目標訓練語料訓練所述目待調整文本分類模型和所述待調整語句分類模型,直至所述驗證結果達標,獲得所述目標文本分類模型和目標語句分類模型。
6.根據權利要求5所述的違規語料的檢測方法,其特征在于,所述調整所述目標訓練語料,獲得調整后的目標訓練語料的步驟包括:
基于預設的關鍵詞查找表確定所述目標訓練語料中的關鍵詞;
基于所述關鍵詞生成多個不同的關鍵詞語料;
將所述關鍵詞語料添加入所述目標訓練語料中,獲得所述調整后的目標訓練語料。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安普惠企業管理有限公司,未經平安普惠企業管理有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011609031.9/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種苯并呋喃類衍生物及其制備方法和應用
- 下一篇:一種硫化鋇連續浸取工藝





