[發明專利]一種N最優口語語義識別方法、裝置及電子設備有效
| 申請號: | 202011220689.0 | 申請日: | 2020-11-05 |
| 公開(公告)號: | CN112037773B | 公開(公告)日: | 2021-01-29 |
| 發明(設計)人: | 張常睿;李蒙 | 申請(專利權)人: | 北京淇瑀信息科技有限公司 |
| 主分類號: | G10L15/06 | 分類號: | G10L15/06;G10L15/14;G10L15/16;G10L15/183;G06N3/04 |
| 代理公司: | 北京清誠知識產權代理有限公司 11691 | 代理人: | 喬東峰 |
| 地址: | 100012 北京市朝陽*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 最優 口語 語義 識別 方法 裝置 電子設備 | ||
1.一種N最優口語語義識別方法,其特征在于,所述方法包括:
獲取自動語音識別ASR模型對歷史音頻數據輸出的前N個概率值的文本數據和各個文本數據的標簽作為訓練集;
通過所述訓練集訓練口語理解SLU模型;
將ASR模型對測試音頻數據輸出的前M個概率值的文本數據輸入所述SLU模型中,得到對該M個文本數據的意圖識別概率序列;
將所述意圖識別概率序列中概率最大的意圖作為所述測試音頻數據的意圖輸出;
其中,所述N最優是指將ASR模型輸出的前N個概率值的文本數據進行意圖識別,最終獲得最優識別結果的方式。
2.根據權利要求1所述的方法,其特征在于,所述ASR模型包括聲學模型和語言模型。
3.根據權利要求2所述的方法,其特征在于,所述聲學模型為長短記憶LSTM神經網絡或者隱馬爾可夫模型HMM。
4.根據權利要求2所述的方法,其特征在于,所述語言模型為n-gram模型、神經網絡語言模型NNLM、word2vec模型中的任意一種。
5.根據權利要求1所述的方法,其特征在于,所述SLU模型為多任務深度神經網絡MT-DNN或者變換器的雙向編碼表征BERT模型。
6.根據權利要求1所述的方法,其特征在于,所述方法還包括:
通過槽位填充模型獲取所述測試音頻數據的意圖對應的槽位值;
將所述測試音頻數據的意圖和對應的槽位值發送給語音對答系統。
7.一種N最優口語語義識別裝置,其特征在于,所述裝置包括:
獲取模塊,用于獲取自動語音識別ASR模型對歷史音頻數據輸出的前N個概率值的文本數據和各個文本數據的標簽作為訓練集;
訓練模塊,用于通過所述訓練集訓練口語理解SLU模型;
輸入模塊,用于將ASR模型對測試音頻數據輸出的前M個概率值的文本數據輸入所述SLU模型中,得到對該M個文本數據的意圖識別概率序列;
輸出模塊,用于將所述意圖識別概率序列中概率最大的意圖作為所述測試音頻數據的意圖輸出;
其中,所述N最優是指將ASR模型輸出的前N個概率值的文本數據進行意圖識別,最終獲得最優識別結果的方式。
8.一種電子設備,包括:
處理器;以及
存儲計算機可執行指令的存儲器,所述計算機可執行指令在被執行時使所述處理器執行根據權利要求1-6中任一項所述的方法。
9.一種計算機可讀存儲介質,其中,所述計算機可讀存儲介質存儲一個或多個程序,當所述一個或多個程序被處理器執行時,實現權利要求1-6中任一項所述的方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京淇瑀信息科技有限公司,未經北京淇瑀信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011220689.0/1.html,轉載請聲明來源鉆瓜專利網。





