[發明專利]違規語料的檢測方法、裝置、計算機設備及存儲介質在審
| 申請號: | 202011609031.9 | 申請日: | 2020-12-30 |
| 公開(公告)號: | CN112686022A | 公開(公告)日: | 2021-04-20 |
| 發明(設計)人: | 南海順 | 申請(專利權)人: | 平安普惠企業管理有限公司 |
| 主分類號: | G06F40/211 | 分類號: | G06F40/211;G06F40/30;G06K9/62;G06N3/08;G06Q30/02 |
| 代理公司: | 深圳市世聯合知識產權代理有限公司 44385 | 代理人: | 汪琳琳 |
| 地址: | 518000 廣東省深圳市前海深港合作區前*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 違規 語料 檢測 方法 裝置 計算機 設備 存儲 介質 | ||
本申請實施例屬于人工智能領域,應用于智慧政務領域中,涉及一種違規語料的檢測方法、裝置、計算機設備及存儲介質,包括基于歷史語音文本生成攜帶一級標簽的標注語料,一級標簽包括有違規標簽和無違規標簽,攜帶有違規標簽的標注語料攜帶二級標簽;調整標注語料獲得目標訓練語料;基于目標訓練語料和一級標簽訓練初始文本分類模型,獲得目標文本分類模型,基于目標訓練語料和二級標簽訓練初始語句分類模型,獲得目標語句分類模型;將待識別語料輸入目標文本分類模型,獲得目標一級標簽;在目標一級標簽為有違規標簽時,將待識別語料輸入目標語句分類模型,獲得目標二級標簽。目標語句分類模型存儲在區塊鏈中。本申請有效提高對違規語料的識別。
技術領域
本申請涉及人工智能技術領域,尤其涉及違規語料的檢測方法、裝置、計算機設備及存儲介質。
背景技術
隨著計算機技術的不斷革新和發展,計算機已經應用到各行各業中。在坐席與客戶溝通的過程中,坐席常常容易出現違規的溝通語料,造成客戶的體驗度低。因此,對于溝通過程中產生的語料的質檢是非常重要的一個環節。目前,對于語料的質檢常常使用訓練后的語料分類模型進行質檢分類,從而確定出違規的語料。
但是,由于語料的數據量龐大,而其中真正違規的語料往往只占有很小的一部分,導致訓練樣本極度的不均衡,語料分類模型對于小概率的違規語料的檢測效果不佳,經常發生對小概率的違規語料的難召回和對非違規語料的誤召回的情況。
發明內容
本申請實施例的目的在于提出一種違規語料的檢測方法、裝置、計算機設備及存儲介質,有效提高對違規語料的識別。
為了解決上述技術問題,本申請實施例提供一種違規語料的檢測方法,采用了如下所述的技術方案:
一種違規語料的檢測方法,包括下述步驟:
接收預標注的歷史語音文本,基于語音識別技術將所述歷史語音文本轉化為標注語料,其中,所述標注語料攜帶一級標簽,一級標簽包括有違規標簽和無違規標簽,且攜帶有違規標簽的標注語料同時攜帶二級標簽;
基于預設的初始語料分類模型和概率閾值調整所述標注語料,獲得目標訓練語料;
基于所述目標訓練語料和所述一級標簽訓練預設的初始文本分類模型,獲得目標文本分類模型,并基于所述目標訓練語料和所述二級標簽訓練預設的初始語句分類模型,獲得目標語句分類模型;
接收待識別語料,將所述待識別語料輸入至所述目標文本分類模型中,獲得目標一級標簽;
識別所述目標一級標簽是否為有違規標簽,在所述目標一級標簽為有違規標簽時,將所述待識別語料輸入至所述目標語句分類模型中,獲得目標二級標簽。
進一步的,所述基于所述目標訓練語料和所述二級標簽訓練預設的初始語句分類模型,獲得目標語句分類模型的步驟包括:
分批次獲取預設個數的目標訓練語料,分別作為批次訓練樣本;
對每次獲取的批次訓練樣本進行樣本調整,獲得調整后的批次訓練樣本;
分批次基于所述調整后的批次訓練樣本和所述二級標簽訓練預設的初始語句分類模型,獲得所述目標語句分類模型。
進一步的,所述對每次獲取的批次訓練樣本進行樣本調整,獲得調整后的批次訓練樣本的步驟包括:
分別識別二級標簽所對應的批次訓練樣本的比例;
在所述比例小于比例閾值時,對所述二級標簽所對應的剩余的目標訓練語料進行隨機抽樣,獲得抽樣樣本;
將所述抽樣樣本添加入所述批次訓練樣本中,直至所述比例大于所述比例閾值,獲得所述調整后的批次訓練樣本。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安普惠企業管理有限公司,未經平安普惠企業管理有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011609031.9/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種苯并呋喃類衍生物及其制備方法和應用
- 下一篇:一種硫化鋇連續浸取工藝





