[發明專利]語音識別系統中確定非目標語言的方法和裝置有效
| 申請號: | 01116330.5 | 申請日: | 2001-04-06 |
| 公開(公告)號: | CN1317783A | 公開(公告)日: | 2001-10-17 |
| 發明(設計)人: | J·納維拉蒂;M·維斯沃納塔 | 申請(專利權)人: | 國際商業機器公司 |
| 主分類號: | G10L15/00 | 分類號: | G10L15/00 |
| 代理公司: | 中國專利代理(香港)有限公司 | 代理人: | 吳立明,張志醒 |
| 地址: | 美國*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 識別 系統 確定 目標 語言 方法 裝置 | ||
本發明涉及語音識別系統,特別是,涉及在單一語音識別系統中檢測非目標語言的方法和裝置。
語音識別和聲頻檢索系統一般為特定的目標語言而開發。這種單一語言系統的詞法、語法和聲音模型反映了目標語言的典型屬性。然而,實際上,這些單一語言的系統可能接收其他非目標語言,導致了較差的性能,包括不正確的轉換或檢索、潛在的錯誤翻譯或錯誤的系統反饋。
例如,許多組織諸如廣播新聞組織和信息檢索服務組織必須處理大量音頻信息以便存儲和檢索。音頻信息常常必須用主題或講話人名字或由兩者來分類。為了用主題分類音頻信息,語音識別系統最初將音頻信息轉換成文本供自動分類或檢索。之后,可用檢索來執行查詢資料的匹配以便將相關的文檔返回給用戶。
然而,如果原始的音頻信息包含非目標語言引用,則語音識別系統可能不正確地轉換非目標語言的引用,這可能導致源信息的不正確分類或檢索。因此,需要在聲頻轉換或語音識別系統中檢測非目標語言引用的方法和裝置。
隨著通訊技術全球化和向廣大的、多語言公眾提供服務的發展,區分不同語言的能力變得越來越重要了。語言排斥問題與這種能力密切相關并因此涉及到語言自動標識(AL、I)的問題。對語言自動標識技術的詳細討論請見,例如,Y.K.Muthusamy等人的“自動語音識別評論”,IEEE信號處理雜志,11(4):33-41(1994,10);J.Navratil和W.Aühlke的“語言識別中的語音-上下文對應”(Phonetic-Context?Mapping?in?Language?Identification),EUROSPEECH-97會議錄,第一卷,7-1-74(1997);以及J.Naviatil和W.Aühlke的“語言識別的高效音位結構學-聲學系統”(An?EfficientPhonotatic-Acoustic?System?for?Language?Identifi-cation),Int′l論聲學、語音和信號處理會議(ICASSP)錄,第二卷,781-84,西雅圖,華盛頓,IEEE(1998,5),這里作為參考資料引用。
已經建議和提出了若干自動的語言標識技術用于根據語音信號中包含的各種特性區分出各種語言。已經標識出好幾種語言區分信息源作為語言識別任務相關的信息,包括,例如,韻律學、聲學、和語法及詞法結構。根據語音的韻律學或聲學自動識別語言的技術試圖分別根據典型的語調和發音模式來識別給定的語言。
然而,由于根據語法和詞法結構的自動語言標識技術的復雜性,大多建議都有根據聲-韻信息或派生的詞法特性的先進技術以用便不太復雜的方式表示其語音結構。已開發了語音鏈中固有模型統計依存關系的ALI技術,稱為音位結構學。在統計意義中,音位結構學可以被看作語言的語法和詞法規則子集。因為在不同的語言中這些規則也不同,區分這些語言的能力自然就反映在音位結構特性中。
總體上,本發明公開了在音頻轉換或語言識別系統中用置信評分探測非目標語言引用的方法和裝置。該置信評分可能基于(ⅰ)由語音識別系統提供的概率引擎評分,(ⅱ)基于背景模型的附加分或(ⅲ)前述的綜合。由語音識別系統為給定的輸入語音的表達提供的引擎評分反映了聲音和語言的表達與訓練的目標語言的匹配度。在一個說明性實現方案中由語音識別系統提供的概率引擎評分與背景模型評分結合以便標準化引擎評分以及考慮到可能出現非目標語言。標準化縮小了講話者和通道的評分變化范圍。
當置信評分低于預定標準時,本發明識別音頻流中的非目標語言表達。根據本發明的一個方面當檢測到非目標語言中的語音時,語言排斥機構中斷或修正轉換過程。本發明用這種方式防止不正確的轉換和索引以及語音識別輸出的錯誤翻譯。
在出現非目標語言表達時,轉換系統不能根據其本地詞匯、語言模型和聲音模型發現良好的匹配。產生的識別文本將有較低的引擎評分值。因此,當引擎評分低于預定閾值時可能單獨用引擎評分來識別非目標語言。
根據幾種語言中的語音數據來建立或訓練背景模型,它可能或可能不包含目標語言自身。可能為每種模型化的語言采用若干種背景語言模型,包括一個或多個(ⅰ)韻律模型;(ⅱ)聲音模型;(ⅲ)音位結構模型和(ⅳ)關鍵字識別(spotting)模型。
通過參考下面的詳細說明和附圖將更全面了解本發明以及本發明的進一步特性和優點。
圖1示出按本發明的非目標語言識別系統;
圖2是一幅示意方框圖,示出圖1的背景語言構型模塊的結構;和
圖3是一幅流程圖,描述圖2的背景語言構型模塊采用的背景模型評分計算過程。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國際商業機器公司,未經國際商業機器公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/01116330.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:計算機式講稿記錄和復制方法
- 下一篇:組合密封環





