[發(fā)明專利]數(shù)據(jù)處理方法、裝置、系統(tǒng)、介質在審
| 申請?zhí)枺?/td> | 201910519091.2 | 申請日: | 2019-06-14 |
| 公開(公告)號: | CN112086096A | 公開(公告)日: | 2020-12-15 |
| 發(fā)明(設計)人: | 仇璐;陳宇;耿嶺;元海明;白二偉;鄭勇超;劉穎;占凱;劉魯鵬 | 申請(專利權)人: | 北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司 |
| 主分類號: | G10L17/04 | 分類號: | G10L17/04;G10L17/22 |
| 代理公司: | 中科專利商標代理有限責任公司 11021 | 代理人: | 楊靜 |
| 地址: | 100086 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數(shù)據(jù)處理 方法 裝置 系統(tǒng) 介質 | ||
本公開提供一種數(shù)據(jù)處理方法,包括:獲取當前語音數(shù)據(jù);根據(jù)歷史語音數(shù)據(jù)處理所述當前語音數(shù)據(jù)以得到所述當前語音數(shù)據(jù)的當前分值,所述歷史語音數(shù)據(jù)包括至少一個語音子數(shù)據(jù);基于所述當前分值和所述歷史語音數(shù)據(jù)中的至少一個確定所述歷史語音數(shù)據(jù)是否包括至少一個目標語音子數(shù)據(jù),其中,所述目標語音子數(shù)據(jù)包括用于控制電子設備失敗的語音數(shù)據(jù);以及響應于所述歷史語音數(shù)據(jù)包括至少一個目標語音子數(shù)據(jù),存儲所述至少一個目標語音子數(shù)據(jù),以便將所述至少一個目標語音子數(shù)據(jù)作為訓練用于控制所述電子設備的語音模型的樣本數(shù)據(jù)。本公開還提供一種數(shù)據(jù)處理裝置、一種數(shù)據(jù)處理系統(tǒng)以及一種計算機可讀存儲介質。
技術領域
本公開涉及計算機技術領域,更具體地,涉及一種數(shù)據(jù)處理方法、一種數(shù)據(jù)處理裝置、一種數(shù)據(jù)處理系統(tǒng)、以及一種計算機可讀存儲介質。
背景技術
隨著計算機技術發(fā)展,電子設備趨向智能化,各種各樣的智能設備廣泛應用于諸多領域,例如智能家居、智能車輛等得到廣泛應用。語音是人類的最常使用的交互方式,所以通過語音喚醒智能設備的技術成為研究熱點。現(xiàn)有技術通常通過訓練語音模型,并將訓練好的語音模型運用于喚醒智能沒備,語音模型包括各種各樣的神經網絡模型。
在實現(xiàn)本公開構思的過程中,發(fā)明人發(fā)現(xiàn)現(xiàn)有技術中至少存在如下問題,現(xiàn)有技術中語音模型由于樣本數(shù)據(jù)不夠豐富,造成語音模型的泛化能力不足,場景適用性不佳,喚醒效果較差。
發(fā)明內容
有鑒于此,本公開提供了一種優(yōu)化的數(shù)據(jù)處理方法和裝置、系統(tǒng)、介質。
本公開的一個方面提供了一種數(shù)據(jù)處理方法,包括:獲取當前語音數(shù)據(jù),根據(jù)歷史語音數(shù)據(jù)處理所述當前語音數(shù)據(jù)以得到所述當前語音數(shù)據(jù)的當前分值,所述歷史語音數(shù)據(jù)包括至少一個語音子數(shù)據(jù),基于所述當前分值和所述歷史語音數(shù)據(jù)中的至少一個確定所述歷史語音數(shù)據(jù)是否包括至少一個目標語音子數(shù)據(jù),其中,所述目標語音子數(shù)據(jù)包括用于控制電子設備失敗的語音數(shù)據(jù),響應于所述歷史語音數(shù)據(jù)包括至少一個目標語音子數(shù)據(jù),存儲所述至少一個目標語音子數(shù)據(jù),以便將所述至少一個目標語音子數(shù)據(jù)作為訓練用于控制所述電子設備的語音模型的樣本數(shù)據(jù)。
根據(jù)本公開實施例,上述方法還包括:確定所述當前語音數(shù)據(jù)的類別,所述類別包括第一類別和第二類別。所述根據(jù)歷史語音數(shù)據(jù)處理所述當前語音數(shù)據(jù)以得到所述當前語音數(shù)據(jù)的當前分值,包括:響應于確定所述當前語音數(shù)據(jù)的類別為所述第一類別,根據(jù)歷史語音數(shù)據(jù)處理所述當前語音數(shù)據(jù)以得到所述當前語音數(shù)據(jù)的當前分值。
根據(jù)本公開實施例,上述基于所述當前分值和所述歷史語音數(shù)據(jù)中的至少一個確定所述歷史語音數(shù)據(jù)是否包括至少一個目標語音子數(shù)據(jù),包括:確定所述當前分值與第一閾值之間的分值關系,確定所述歷史語音數(shù)據(jù)中的至少一個語音子數(shù)據(jù)對應的至少一個第一差值,其中,所述第一差值為第二概率和第一概率之間的差值,所述第一概率為所述至少一個語音子數(shù)據(jù)屬于所述第一類別的概率,所述第二概率為所述至少一個語音子數(shù)據(jù)屬于所述第二類別的概率,基于所述分值關系以及所述至少一個第一差值確定所述歷史語音數(shù)據(jù)是否包括至少一個目標語音子數(shù)據(jù)。
根據(jù)本公開實施例,上述響應于所述歷史語音數(shù)據(jù)包括至少一個目標語音子數(shù)據(jù),存儲所述至少一個目標語音子數(shù)據(jù),包括:在所述分值關系表示所述當前分值大于或等于所述第一閾值并且所述至少一個第一差值中包括滿足預設差值的第一差值時,確定所述歷史語音數(shù)據(jù)包括至少一個目標語音子數(shù)據(jù),存儲所述歷史語音數(shù)據(jù)。
根據(jù)本公開實施例,上述基于所述當前分值和所述歷史語音數(shù)據(jù)中的至少一個確定所述歷史語音數(shù)據(jù)是否包括至少一個目標語音子數(shù)據(jù),包括:獲取第二閾值、第三閾值以及分值變量,將所述當前分值與第二閾值、第三閾值以及分值變量進行比較,以獲得比較結果,根據(jù)所述比較結果確定所述歷史語音數(shù)據(jù)是否包括至少一個目標語音子數(shù)據(jù)。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司,未經北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910519091.2/2.html,轉載請聲明來源鉆瓜專利網。
- 數(shù)據(jù)處理設備,數(shù)據(jù)處理方法,和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理電路、數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法、數(shù)據(jù)處理控制方法
- 數(shù)據(jù)處理設備、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法及計算機可讀取的記錄介質
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法以及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法以及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序





