[發明專利]語音識別方法和設備在審
| 申請號: | 201711372384.X | 申請日: | 2017-12-19 |
| 公開(公告)號: | CN108364651A | 公開(公告)日: | 2018-08-03 |
| 發明(設計)人: | 文珉暎;李鎬式;崔榮相 | 申請(專利權)人: | 三星電子株式會社 |
| 主分類號: | G10L15/26 | 分類號: | G10L15/26;G10L15/08;G10L15/183 |
| 代理公司: | 北京銘碩知識產權代理有限公司 11286 | 代理人: | 張川緒;王兆賡 |
| 地址: | 韓國京畿*** | 國省代碼: | 韓國;KR |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音識別 方法和設備 候選文本 解碼條件 目標文本數據 解碼 語音信號 講話 | ||
1.一種語音識別方法,包括:
從用戶的語音信號產生多條候選文本數據;
確定與用戶的講話類型對應的解碼條件;
通過基于確定的解碼條件執行解碼,在所述多條候選文本數據之中確定目標文本數據。
2.根據權利要求1所述的語音識別方法,還包括:基于語音信號的特征、上下文信息、以及來自語音信號的識別部分的語音識別結果中的任意一個或者任意兩個或更多個的任意組合,確定講話類型。
3.根據權利要求2所述的語音識別方法,其中,上下文信息包括用戶位置信息、用戶配置文件信息以及在用戶裝置中執行的應用的應用類型信息中的任意一個或者任意兩個或更多個的任意組合。
4.根據權利要求1所述的語音識別方法,其中,確定解碼條件的步驟包括:響應于講話類型被確定,從映射信息選擇映射到確定的講話類型的解碼條件,其中,映射信息包括多個講話類型和分別映射到所述多個講話類型的相應的多個解碼條件。
5.根據權利要求1所述的語音識別方法,其中,確定目標文本數據的步驟包括:
將當前解碼條件改變為確定的解碼條件;
基于確定的解碼條件計算所述多條候選文本數據中的每個的概率;
基于計算的多個概率,在所述多條候選文本數據之中確定目標文本數據。
6.根據權利要求1所述的語音識別方法,其中,確定目標文本數據的步驟包括:
基于確定的解碼條件,調節聲學模型的權重和語言模型的權重中的任何一個或兩者;
通過基于聲學模型的權重和語言模型的權重中的任何一個或兩者執行解碼,來確定目標文本數據。
7.根據權利要求1所述的語音識別方法,其中,產生多條候選文本數據的步驟包括:
基于聲學模型從語音信號確定音素序列;
基于語言模型從確定的音素序列識別多個單詞;
基于識別的多個單詞產生所述多條候選文本數據。
8.根據權利要求7所述的語音識別方法,其中,聲學模型包括被配置為基于語音信號的特征確定講話類型的分類器。
9.根據權利要求1所述的語音識別方法,其中,解碼條件包括:聲學模型的權重、語言模型的權重、與對音標分布的依賴性關聯的比例因子、倒譜均值和方差標準化、以及解碼窗口大小中的任意一個或者任意兩個或更多個的任意組合。
10.一種存儲指令的非暫時性計算機可讀介質,當由處理器執行所述指令時,使處理器執行權利要求1的語音識別方法。
11.一種語音識別設備,包括:
處理器;
存儲器,被配置為存儲可被處理器執行的指令;
其中,響應于執行所述指令,處理器被配置為:
從用戶的語音信號產生多條候選文本數據;
確定與用戶的講話類型對應的解碼條件;
通過基于確定的解碼條件執行解碼,在所述多條候選文本數據之中確定目標文本數據。
12.根據權利要求11所述的語音識別設備,其中,處理器還被配置為:基于語音信號的特征、上下文信息、以及來自語音信號的識別部分的語音識別結果中的任意一個或者任意兩個或更多個的任意組合,確定講話類型。
13.根據權利要求12所述的語音識別設備,其中,上下文信息包括用戶位置信息、用戶配置文件信息以及在用戶裝置中執行的應用的應用類型信息中的任意一個或者任意兩個或更多個的任意組合。
14.根據權利要求11所述的語音識別設備,其中,處理器還被配置為:響應于講話類型被確定,從映射信息選擇映射到確定的講話類型的解碼條件,其中,映射信息包括多個講話類型和分別映射到所述多個講話類型的相應的多個解碼條件。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于三星電子株式會社,未經三星電子株式會社許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711372384.X/1.html,轉載請聲明來源鉆瓜專利網。





