[發明專利]數據的處理方法、裝置、設備以及存儲介質有效
| 申請號: | 202010784923.6 | 申請日: | 2020-08-06 |
| 公開(公告)號: | CN112017634B | 公開(公告)日: | 2023-05-26 |
| 發明(設計)人: | 肖芃芃 | 申請(專利權)人: | OPPO(重慶)智能科技有限公司 |
| 主分類號: | G10L15/01 | 分類號: | G10L15/01;G10L15/18;G10L15/06 |
| 代理公司: | 北京知帆遠景知識產權代理有限公司 11890 | 代理人: | 吳文婧 |
| 地址: | 401120 重慶*** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據 處理 方法 裝置 設備 以及 存儲 介質 | ||
本申請實施例提供了一種數據的處理方法、裝置、設備以及存儲介質。該方法包括:根據預設的驗證集,對語言算法模型進行驗證,得到驗證結果,該驗證集包括第一數據集,第一數據集包括從數據池抽樣得到的多個第一數據,第一數據是攜帶有標簽,且不確定度大于第一預設閾值的數據;根據驗證結果,更新語言算法模型。從而實現對語言算法模型對包括不確定度高的數據在內的識別準確性。
技術領域
本申請實施例涉及語言識別技術領域,并且更具體地,涉及數據的處理方法、裝置、設備以及存儲介質。
背景技術
隨著語言識別技術的不斷發展,基于自然語言理解(Natural?LanguageUnderstanding,NLU)的對話系統在包括手機、平板、電視等在內的終端設備中得到廣泛的應用。而為了滿足用戶對于對話系統的自然語言理解能力的高要求,需要不斷優化基于NLU的語言算法模型,使其分類識別能力得到優化,進而更好的識別用戶的意圖。
對此,現有技術常需要通過大量的訓練數據對語言算法模型的分類識別能力進行優化訓練,而在實際業務領域中,訓練數據往往受長尾效應的影響而缺乏均衡性,大量類別模糊的邊界語料因收錄的頻次較低而很少被抽取為訓練數據,而少數類別清晰的數據因收錄的頻次較高,較多的被抽取為訓練數據,導致語言算法模型無法對大量的邊界數據進行準確的分類識別,進而使得語言算法模型的準確性較差。
發明內容
本申請實施例提供了一種數據的處理方法、裝置、設備以及存儲介質。實現對語言算法模型的準確性進行驗證和優化。
第一方面,提供了一種數據的處理方法,包括:
根據預設的驗證集,對語言算法模型進行驗證,得到驗證結果;驗證集包括第一數據集,第一數據集包括從數據池抽樣得到的多個第一數據,第一數據是攜帶有標簽,且不確定度大于第一預設閾值的數據;
根據驗證結果,更新語言算法模型。
在一種具體的實現方式中,根據驗證集,對語言算法模型進行驗證,得到驗證結果,包括:
針對驗證集中的每個驗證數據,將驗證數據輸入語言算法模型,得到語言算法模型針對驗證數據的輸出結果;
根據輸出結果和驗證數據的標簽,確定語言算法模型針對驗證數據的輸出結果是否正確。
在一種具體的實現方式中,根據輸出結果和驗證數據的標簽,確定語言算法模型針對驗證數據的輸出結果是否正確,包括:
確定輸出結果和驗證數據的標簽是否相同;
若輸出結果和驗證數據的標簽相同,則語言算法模型針對驗證數據的輸出結果正確;
否則,語言算法模型針對驗證數據的輸出結果錯誤。
在一種具體的實現方式中,根據驗證結果,更新語言算法模型,包括:
根據驗證結果,確定語言算法模型是否滿足第一更新條件;
在語言算法模型滿足第一更新條件時,根據預設的訓練集,對語言算法模型進行訓練;訓練集包括第二數據集,第二數據集包括從數據池中抽樣得到的多個第二數據,第二數據是攜帶有標簽,且不確定度大于第二預設閾值的數據;
將語言算法模型更新為訓練后的語言算法模型。
在一種具體的實現方式中,根據驗證結果,確定語言算法模型是否滿足第一更新條件,包括:
根據驗證結果,確定語言算法模型針對全部驗證數據的輸出結果的正確率是否小于第一預設正確率閾值;
若語言算法模型針對全部驗證數據的輸出結果的正確率小于第一預設正確率閾值,則語言算法模型滿足第一更新條件;
否則,語言算法模型不滿足第一更新條件。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于OPPO(重慶)智能科技有限公司,未經OPPO(重慶)智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010784923.6/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





