[發(fā)明專利]語音識別語言模型有效
| 申請?zhí)枺?/td> | 201180052260.8 | 申請日: | 2011-08-09 |
| 公開(公告)號: | CN103262156A | 公開(公告)日: | 2013-08-21 |
| 發(fā)明(設(shè)計)人: | 阿舒拓史·A·馬勒高恩卡;甘努·薩蒂施·庫瑪;蓋德·K·M·喬爾特 | 申請(專利權(quán))人: | 思科技術(shù)公司 |
| 主分類號: | G10L15/07 | 分類號: | G10L15/07;G10L15/183;H04M3/42;H04M3/56 |
| 代理公司: | 北京東方億思知識產(chǎn)權(quán)代理有限責(zé)任公司 11258 | 代理人: | 李曉冬 |
| 地址: | 美國加利*** | 國省代碼: | 美國;US |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 語音 識別 語言 模型 | ||
技術(shù)領(lǐng)域
本發(fā)明實施例涉及語音識別或者語音到文本的轉(zhuǎn)換。
背景技術(shù)
互聯(lián)網(wǎng)上可用的信息量已呈指數(shù)增長。這樣的內(nèi)容只有通過使用搜索引擎才能夠被有效地消耗。越來越大比例的內(nèi)容是不能夠被輕易地搜索的語音或音頻。語音識別將講出的話語轉(zhuǎn)換成文本,這使得語音或音頻能利用搜索引擎被搜索到。
語音識別軟件的開發(fā)開始于20世紀80年代。早期的語音識別軟件可以從有限的詞表中識別出一個個地說出的詞。詞表可以很容易增加,但是在20世紀90年代初期高詞表系統(tǒng)受50%以下的準確度困擾,致使大多數(shù)系統(tǒng)實際上都無法使用。識別正常講出的連續(xù)話語的第一個商業(yè)產(chǎn)品是在1997年發(fā)布的。語音識別軟件的最大改進并沒有經(jīng)歷語音識別技術(shù)的新發(fā)展。反而,這些改進是運算能力與數(shù)據(jù)存儲的增加與降低成本相結(jié)合的結(jié)果。然而,商業(yè)產(chǎn)品的準確率已經(jīng)達到70%至80%左右的穩(wěn)定水平。此外,將所有語言中的所有可能詞語都列入的嘗試已經(jīng)導(dǎo)致一萬億的詞表。然而,更大的詞表或者運算能力或數(shù)據(jù)存儲的增加可能并不能提供識別準確性的額外的顯著增加。
附圖說明
圖1示出語音識別系統(tǒng)的一實施例。
圖2示出包含該語音識別系統(tǒng)的網(wǎng)絡(luò)。
圖3示出該語音識別系統(tǒng)的解碼器的更詳細視圖。
圖4示出該語音識別系統(tǒng)的操作的功能方塊圖。
圖5示出該語音識別系統(tǒng)所使用的示例社交圖。
圖6示出該語音識別系統(tǒng)所采用的方法的一個實施例的流程圖。
圖7示出該語音識別系統(tǒng)所采用的方法的另一實施例的流程圖。
具體實施方式
概述
語音識別系統(tǒng)將語音或音頻轉(zhuǎn)換成能夠被搜索的文本。語音識別系統(tǒng)使用專門針對特定職業(yè)的語言模型。改進的語言模型可以被使用特定個體的詞表以及該個體的社交圖中其他個體的詞表來針對該特定個體進行裁剪。基于來自一用戶和/或該用戶的對等方的文本自動地連續(xù)構(gòu)建語言模型提高了語音文字記錄的準確性。例如,對等方可以從電子郵件或社交網(wǎng)絡(luò)聯(lián)系人中被識別出,并且語言模型可以從電子郵件、超文本傳輸協(xié)議(HTTP)帖子或者任何與對等方或該用戶有關(guān)的網(wǎng)絡(luò)流量來構(gòu)建。
在一個方面中,一種方法包括:監(jiān)視來自多個用戶的網(wǎng)絡(luò)流量,所述多個用戶包括第一用戶以及第二用戶;從所述網(wǎng)絡(luò)流量中提取詞;為所述多個用戶中的每一個用戶構(gòu)建個人詞表;以及利用至少部分基于所述第二用戶的個人詞表的語言模型將所述第一用戶的音頻轉(zhuǎn)換成文本。
在第二方面中,一種設(shè)備包括:收集器接口,被配置為監(jiān)視來自包括第一用戶以及第二用戶的多個用戶的網(wǎng)絡(luò)流量,并且從所述網(wǎng)絡(luò)流量中提取n元語法(n-grams);存儲器,被配置為存儲所述多個用戶中的每個用戶的個人詞表;以及控制器,被配置為利用至少部分基于所述第二用戶的個人詞表的語言模型將所述第一用戶的音頻轉(zhuǎn)換成文本。
在第三方面中,編碼在一個或多個非暫時有形介質(zhì)中的邏輯可由處理器執(zhí)行,并且可操作來:監(jiān)視來自包括第一用戶以及第二用戶的多個用戶的網(wǎng)絡(luò)流量;從所述網(wǎng)絡(luò)流量中提取詞;為所述多個用戶中的每個用戶從所述詞構(gòu)建個人詞表;利用基于所述第一用戶的個人詞表的第一語言模型將所述第一用戶的音頻轉(zhuǎn)換成文本;利用所述第一語言模型計算所述文本的置信分值;將所述置信分值與一預(yù)定閾值進行比較;以及如果所述置信分值未超過所述預(yù)定閾值,則利用基于所述第一用戶的個人詞表和所述第二用戶的個人詞表的第二語言模型將所述第一用戶的音頻轉(zhuǎn)換成文本。
示例性實施例
通過簡單地構(gòu)建更大的詞表或提高語音識別系統(tǒng)的運算能力來提高識別的準確性可能不顯著。實際上,在很多情況下,向通用的詞表中添加詞語實際上往往降低了語音識別系統(tǒng)的識別準確性。隨著進行選擇的詞語的數(shù)量增加,選擇錯誤詞語的可能性也可能增加。為了改進,語音識別系統(tǒng)必須通過在提高語音到文本轉(zhuǎn)換的準確性的同時減小詞表大小來變得更加智能。
減小詞表大小的一種方式是個性化該系統(tǒng)的詞表。例如,系統(tǒng)可以被預(yù)加載有為某些職業(yè)指定的詞表,這些職業(yè)例如是醫(yī)生、工程師、律師或銀行業(yè)者。當然,不是所有的醫(yī)生都使用相同的詞表,并且一個醫(yī)生不總是談?wù)撫t(yī)學(xué)話題。減小詞表大小的另一種方式是將詞表針對特定個體進行個性化。例如,通過從各種最終用戶智能地收獲網(wǎng)絡(luò)數(shù)據(jù),可以通過觀察該網(wǎng)絡(luò)上每個用戶的交互/流量來創(chuàng)建個人詞表。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于思科技術(shù)公司,未經(jīng)思科技術(shù)公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201180052260.8/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





