[發明專利]語音解碼、識別方法、裝置、系統和機器設備有效
| 申請號: | 201810313090.8 | 申請日: | 2018-04-09 |
| 公開(公告)號: | CN108630210B | 公開(公告)日: | 2023-06-30 |
| 發明(設計)人: | 蒲松柏;羅敏;王廣森;曹立新 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G10L19/00 | 分類號: | G10L19/00;G10L15/26 |
| 代理公司: | 深圳市聯鼎知識產權代理有限公司 44232 | 代理人: | 劉抗美;葉虹 |
| 地址: | 518000 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 解碼 識別 方法 裝置 系統 機器設備 | ||
本發明揭示了一種語音識別中的解碼方法、語音識別方法、裝置、系統和機器設備。所述方法包括:根據所進行語音識別對應的語音解碼范圍獲取文本數據;生成文本數據的前綴搜索樹;通過前綴搜索樹解碼語音識別中聲學模型輸出的聲學特征,獲得匹配的路徑;根據匹配的路徑獲得語音識別的解碼結果。至此實現封閉集場景下語音解碼,對封閉集以前綴搜索樹的方式取代語言模型,獲得較強實時性以及靈活性,而對于解碼結果通過前綴搜索樹進行搜索獲得,消除了edit?distance度量的約束,也避免了語言模型與封閉集之間概率模型的不一致性,能夠極大提高準確性,在前綴搜索樹的作用下不需要大量存儲空間且加快搜索速度,實現低復雜度、實時性強且準確的語音解碼。
技術領域
本發明涉及語音技術領域,特別涉及一種語音識別中的解碼方法、語音識別方法、裝置、系統和機器設備。
背景技術
隨著語音技術的發展,語音技術開始改變著我們的生活和工作方式。對于某此設備來說,語音成為了人機交互的主要方式,例如,對話交互的實現以及語音控制的實現。這些趨勢的出現是多種語音解碼方案推動所導致的。
現有語音解碼方案大致分為兩類,一類是開集解碼,另一類則是封閉集解碼,相對于開集解碼而言,封閉集解碼可以參考更多的先驗信息。
而對于封閉集解碼中,現有的技術實現主要是:使用聲學模型和語言模型獲得搜索空間,然后通過在搜索空間進行的搜索解碼語音。
具體的,根據所用語言模型的不同,也分為兩方式:一種是采用通用語言模型來獲得搜索空間;另一種是利用封閉集動態生成所用的語言模型,進而結合聲學模型獲得搜索空間。
對于采用通用語言模型的語音解碼方案,存在著非常多的搜索路徑,進而影響解碼速度,并且在獲得識別結果之后還需要通過edit-distance的度量方法與封閉集進行匹配,以確定最終的識別結果,但是,這一edit-distance的度量方法并不適合封閉集的應用場景,且通用語言模型的概率模型與封閉集的概率模型往往并不一致,進而導致解碼不準確的缺陷。
對于利用封閉集動態生成語音模型的語音解碼方案,如果采用在線生成方式,則解碼速度很難達到實時;如果采用離線生成方式,則提供服務的服務器需要大量的存儲空間。
由此可知,對于封閉集應用場景下語音解碼的實現存在著諸多缺陷,進而并無法落地實現封閉集應用場景下的語音解碼。
至此,亟待獲得低復雜度、實時性強且準確的語音解碼方法,以落地于終端設備中的封閉集應用場景。
發明內容
為了解決相關技術中存在的封閉集應用場景下語音解碼方法難以落地實現的技術問題,本發明提供了一種低復雜度、實時性強且準確的語音識別中的解碼方法、語音識別方法、裝置、系統和機器設備。
一種語音識別中的解碼方法,所述方法包括:
根據所進行語音識別對應的語音解碼范圍獲取文本數據;
動態生成所述文本數據的前綴搜索樹;
通過所述前綴搜索樹解碼所述語音識別中聲學模型輸出的聲學特征,獲得所述聲學特征在所述前綴搜索樹上匹配的路徑;
根據匹配的所述路徑獲得所述語音識別的解碼結果。
在一個示例性實施例中,所述根據所進行語音識別對應的語音解碼范圍獲取文本數據,包括:
根據所發起進行的語音識別獲得語音識別指令;
根據所述語音識別指令獲取所對應識別目標所在文本數據為所述語音識別對應的語音解碼范圍;
按照所述語音解碼范圍獲取文本數據。
在一個示例性實施例中,所述動態生成所述文本數據的前綴搜索樹,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810313090.8/2.html,轉載請聲明來源鉆瓜專利網。





