[發明專利]一種語音識別方法及裝置在審

申請號：	201310451614.7	申請日：	2013-09-27
公開（公告）號：	CN104517609A	公開（公告）日：	2015-04-15
發明（設計）人：	陳茂國;呂梁;劉帥東	申請（專利權）人：	華為技術有限公司
主分類號：	G10L15/30	分類號：	G10L15/30
代理公司：	北京同達信恒知識產權代理有限公司 11291	代理人：	黃志華
地址：	518129 廣東***	國省代碼：	廣東;44
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種語音識別方法裝置
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

技術領域

本發明涉及語音識別技術領域，尤其涉及一種語音識別方法及裝置。

背景技術

自動語音識別技術（Automatic?Speech?Recognition，ASR）是一種將人的語音轉換為文本的技術。語音識別是一個多學科交叉的領域，它與聲學、語音學、語言學、數字信號處理理論、信息論、計算機科學等眾多學科緊密相連。其廣泛應用于語音通訊系統、聲控電話交換、數據查詢、訂票系統、電信銀行客服、計算機控制、工業控制等領域。

媒體資源服務器向終端提供各種語音服務時一般采用媒體資源控制協議（Media?Resource?Control?Protocol，MRCP），該通訊協議由IETF在RFC4463中定義，目前已定義的功能有語音識別（Speech?Recognize）、語音合成（Speech?synthesis）、錄音（Record）、說話人鑒別和確認（Speaker?Verification?and?Identification）。MRCP并不定義會話連接，不關心服務器與終端是如何連接的，MRCP消息使用實時流協議（Real-Time?Streaming?Protocol，RTSP）、初始會話協議（Session?Initiation?Protocol，SIP）等作為控制協議等，目前MRCPv2版本，使用SIP控制協議。現有的MRCPv2的系統架構主要包括MRCP終端和MRCP服務器，其中：

MRCP終端（MRCP?Client）用于控制MRCP?Server上的一種或者多種媒體資源。

MRCP服務器（MRCP?Server）用于提供一種或者多種媒體資源，比如文語轉換、語音識別、語音身份辨認、錄音。

MRCP終端和MRCP服務器在進行數據交互時，可以通過以下協議實現：

MRCP協議第二個大版本（MRCPv2）是基于TCP連接，用于控制MRCP?Server的媒體資源，以完成MRCP?Client的媒體資源使用任務。

初始會話協議（SIP），用于實現MRCP?Server與MRCP?Client間的會話建立和會話信令管理，交換終端與服務器的會話描述協議（Session?Description?Protocol，SDP），為語音數據流的建立打下基礎。

實時傳輸協議（RTP），用于傳輸終端與服務器的語音數據流。

現有技術MRCPv2協議中規定了如何通過SIP、RTP、MRCP協議配合使得MRCP?Client和MRCP?Server完成語音識別功能。

現有技術中實現一次性語音識別典型的流程時序，具體包括一下步驟：

MRCP?Client發送INVITE消息給MRCP?Server請求建立會話，攜帶MRCP?Client側的SDP；

MRCP?Server回復200表示請求已經成功接受處理，攜帶MRCP?Server側的SDP；

MRCP?Client隨后發送ACK消息證實200消息已經收到，至此一個SIP會話成功建立；

MRCP?Client發送RECOGNIZE消息給MRCP?Server請求語音識別，按照MRCP協議規定的格式攜帶相關的語音識別控制參數，并且指定語法文件路徑；

MRCP?Server接收RECOGNIZE請求，編譯語法文件，回復200消息給MRCP?Client；

MRCP?Client此時開始根據之前協商好的SDP，開始源源不斷的發送RTP語音流給MRCP?Server；

MRCP?Server接收RTP語音流，當檢測到用戶開始說話時，發送START-OF-INPUT事件；

當MRCP?Server根據語法文件定義得到識別結果時，通過RECOGNITION-COMPLETE事件返回識別結果；

MRCP?Client發送BYE消息給MRCP?Server結束會話；

MRCP?Server發送200消息給MRCP?Client確認結束；

MRCP?Client通過上述流程獲得MRCP?Server提供的一次完整語音識別能力。

通過上述現有技術的方案進行語音識別的問題是：在RTP流不間斷的場景下，如果通過一次性識別的方式進行語音流的識別和反饋，必然會導致在識別控制的間隔，有些RTP流被遺漏處理，從而就會影響到連續識別的準確性。

發明內容

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于華為技術有限公司;，未經華為技術有限公司;許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201310451614.7/2.html，轉載請聲明來源鉆瓜專利網。

同類專利

專利分類

G 物理

G10 樂器；聲學
G10L 語音分析或合成；語音識別；音頻分析或處理
G10L15-00 語音識別
G10L15-02 .語音識別的特征提取；識別單位的選擇
G10L15-04 .分段或字極限檢測
G10L15-06 .創建基準模板；訓練語音識別系統，例如對說話者聲音特征的適應
G10L15-08 .語音分類或檢索
G10L15-20 .專門適用于不利環境

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】