[發明專利]一種自動語音識別業務的實現方法、系統和媒體服務器有效
| 申請號: | 201310032134.7 | 申請日: | 2013-01-28 |
| 公開(公告)號: | CN103151041A | 公開(公告)日: | 2013-06-12 |
| 發明(設計)人: | 張偉;程佳佳;崔飛 | 申請(專利權)人: | 中興通訊股份有限公司 |
| 主分類號: | G10L15/30 | 分類號: | G10L15/30;H04L29/06;G10L19/00 |
| 代理公司: | 北京派特恩知識產權代理事務所(普通合伙) 11270 | 代理人: | 王黎延;張振偉 |
| 地址: | 518057 廣東省深圳市南山*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 自動 語音 識別 業務 實現 方法 系統 媒體 服務器 | ||
技術領域
本發明涉及通信領域中的自動語音識別(ASR)技術,尤其涉及一種ASR業務的實現方法、系統和媒體服務器。
背景技術
媒體服務器(Media?Server,MS)是軟交換體系中提供專用媒體資源功能的獨立設備,也是分組網絡中的重要設備,提供基本、增強業務中的媒體處理功能,并用于所有與音視頻相關的媒體處理操作,所述媒體處理操作包括:視頻和音頻實時傳輸協議(RTP)的數據與視、音頻文件的相互轉換。同時,媒體服務器也用于接收用戶通過終端雙音多頻(DTMF)的輸入、播放業務的引導語音以及顯示動態的引導畫面。媒體服務器具有的會話初始協議(SIP)和MSML/MOML協議能力,使得媒體服務器能在應用服務器(APP?Server)的控制下完成整個會話過程,實現與用戶的交互。
媒體控制模塊(MSCU)是媒體服務器中的一個重要模塊,主要用于與其他實體進行能力協商,提供資源本身的管理、維護,以及控制其他業務資源模塊執行復雜的業務。
媒體存儲傳輸音頻模塊(MSTU)是媒體服務器中的業務資源模塊,用于存儲海量的音頻數據,并實現音頻文件的播放功能。媒體存儲傳輸音頻模塊上設置有對外網口,可以直接通過所述對外網口收發音頻數據。
現有技術中,媒體服務器的應用范圍很廣,主要可以歸納為音視頻播放、收號和會議等功能。
ASR功能是對輸入的音頻信息進行識別,轉化為文字,并將文字信息通過消息上報給用戶。目前,在電信領域中,ASR應用通常是通過專門配置的ASR服務器來實現的,通過信令指定ASR服務器將文字發送到用戶端,如發送到用戶的終端來完成一次ASR業務。
圖1為現有技術中實現ASR業務的系統結構示意圖,如圖1所示,該系統包括:終端、APP服務器、媒體服務器和ASR服務器。基于圖1所述系統的方法實現流程包括如下步驟:
步驟101:終端發起一次呼叫,觸發APP服務器以激活APP業務;
步驟102:APP服務器通過SIP信令向媒體服務器請求ASR業務;
步驟103:媒體服務器通過SIP信令向ASR服務器請求ASR資源,并通過媒體資源控制協議(MRCP)控制ASR服務器執行相應業務;
步驟104:終端向ASR服務器發送媒體業務數據包,并且ASR服務器將識別出的文本信息上報給媒體服務器。
以上便是目前典型的ASR業務組網結構圖和業務實現流程。其中,ASR服務器為媒體服務器的外置裝置。APP服務器在請求ASR業務時只是向媒體服務器發起請求,媒體服務器判斷當前業務類型,當業務類型為ASR應用時,媒體服務器再向ASR服務器發起請求,申請資源,并控制ASR服務器的行為,ASR服務器在收到信令后等待媒體信息的輸入,并自動將媒體信息識別成文字,通過MRCP發送給媒體服務器。
但是,隨著業務應用的擴展,上述現有實現方法存在一定缺陷,比如:ASR服務器的音頻能力集與終端的音頻能力集不匹配,將導致ASR業務失敗。因為APP服務器在同媒體服務器進行會話描述協議(SDP)協商時,媒體服務器并不知道當前的業務類型是否為ASR,所以會按照自身的能力范圍同終端協商音頻參數。當APP服務器向媒體服務器下發信息(INFO)指令時,媒體服務器才能識別出ASR業務類型,此時,媒體服務器通過終端SDP信息向ASR服務器申請資源。但是,如果ASR服務器的音頻編解碼能力范圍與媒體服務器同終端協商的結果不相同時,比如:媒體服務器同終端協商的音頻編解碼類型為AMR格式,但ASR服務器只支持G711的音頻格式時,將導致ASR服務器訪問媒體業務數據包的數據失敗,最終導致ASR業務失敗。
發明內容
有鑒于此,本發明的主要目的在于提供一種ASR業務的實現方法、系統和媒體服務器,可解決媒體服務器與終端協商的音頻編解碼能力無法滿足ASR服務器時,ASR服務器無法訪問媒體業務數據包數據的問題,保證ASR業務的實現。
為達到上述目的,本發明的技術方案是這樣實現的:
本發明提供了一種自動語音識別ASR業務的實現方法,該方法包括:
媒體服務器收到APP服務器的訪問請求后,確定自身支持的音頻編解碼類型集;
媒體服務器收到APP服務器發送的ASR業務請求后,根據ASR業務類型向ASR服務器申請ASR業務資源;
媒體服務器根據所述音頻編解碼類型集與ASR服務器進行協商,通過協商所得的音頻編解碼類型對媒體業務數據包進行轉碼,并將轉碼后的媒體業務數據包發送給ASR服務器。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中興通訊股份有限公司,未經中興通訊股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310032134.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種帶鑰匙扣的手提包
- 下一篇:一種基于向量機SVM的說話者年齡段識別方法





