[發明專利]用數字化語音中呈現的詞來索引數字化語音的方法和裝置有效
| 申請號: | 200810083001.1 | 申請日: | 2008-03-17 |
| 公開(公告)號: | CN101271689A | 公開(公告)日: | 2008-09-24 |
| 發明(設計)人: | 小查爾斯·W·克羅斯;弗蘭克·L·賈尼亞 | 申請(專利權)人: | 國際商業機器公司 |
| 主分類號: | G10L15/00 | 分類號: | G10L15/00;G10L15/08;G10L15/22;G06F17/30 |
| 代理公司: | 北京市柳沈律師事務所 | 代理人: | 黃小臨 |
| 地址: | 美國紐*** | 國省代碼: | 美國;US |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數字化 語音 呈現 索引 方法 裝置 | ||
1.一種用數字化語音中呈現的詞索引所述數字化語音的方法,所述方法用在多模式設備上操作的多模式數字音頻編輯器實現,所述多模式數字音頻編輯器支持與所述多模式數字音頻編輯器的用戶交互的多種模式,所述用戶交互的多種模式包括話音模式和一種或多種非話音模式,所述多模式數字音頻編輯器操作地耦合于ASR引擎,所述方法包括:
由所述多模式數字音頻編輯器向ASR引擎提供用于識別的數字化語音;
在所述多模式數字音頻編輯器中從所述ASR引擎接收被識別的用戶語音,所述被識別的用戶語音包括被識別詞,還包括指示在所述數字化語音中何處開始呈現被識別詞的信息;以及
由所述多模式數字音頻編輯器將與指示在所述數字化語音中何處開始呈現被識別詞的所述信息相關聯的被識別詞插入語音識別語法中,所述語音識別語法話音使能與所述多模式數字音頻編輯器的用戶接口命令。
2.如權利要求1所述的方法,進一步包括視覺地顯示具有作為在所述數字化語音中何處開始呈現被識別詞的被識別詞的索引的所述數字化語音。
3.如權利要求1所述的方法,進一步包括由所述ASR引擎識別在所述數字化語音中的詞,包括標識指示在數字化語音中何處開始呈現該詞的信息。
4.如權利要求3所述的方法,其中,標識指示在數字化語音中何處開始呈現該詞的信息進一步包括:
將所述數字化語音組織到在幀中成組的時域幅度采樣的順序集合,由唯一且基數的幀標識號來順序表征每幀,每幀包括相同的時域幅度采樣數;
將包含該詞的所述數字化語音轉換到以時域幅度采樣的幀中的一幀開始的頻域;以及
通過用每幀中的幅度采樣數乘以幀標識號之一來導出指示在數字化語音中何處開始呈現該詞的索引值。
5.如權利要求1所述的方法,其中,將該詞插入語音識別語法中還包括:將作為在所述語音識別語法中的不可選終端元素的被識別詞與呈現所述數字音頻編輯器的用戶接口命令的詞相關聯。
6.如權利要求1所述的方法,其中,所述語音識別語法話音使能所述多模式數字音頻編輯器的用戶接口命令還包括:由所述多模式數字音頻編輯器向所述語法插入指示在所述數字化語音中何處開始呈現被識別詞的信息,作為不可選終端語法元素的部分。
7.一種用在數字化語音中呈現的詞來索引所述數字化語音的裝置,所述方法用在多模式設備上操作的多模式數字音頻編輯器實現,所述多模式數字音頻編輯器支持與所述多模式數字音頻編輯器的用戶交互的多種模式,所述用戶交互的多種模式包括話音模式和一種或多種非話音模式,所述多模式數字音頻編輯器操作地耦合于ASR引擎,所述裝置包括計算機處理器和操作地耦合于所述計算機處理器的計算機存儲器,所述計算機存儲器具有安置在其中的計算機程序指令,該計算機程序指令能夠:
從所述多模式數字音頻編輯器向ASR引擎提供用于識別的數字化語音;
在所述多模式數字音頻編輯器中從所述ASR引擎接收被識別的用戶語音,所述被識別的用戶語音包括被識別詞,還包括指示在所述數字化語音中何處開始呈現被識別詞的信息;以及
由所述多模式數字音頻編輯器將與指示在所述數字化語音中何處開始呈現被識別詞的所述信息相關聯的被識別詞插入語音識別語法中,所述語音識別語法話音使能與所述多模式數字音頻編輯器的用戶接口命令。
8.如權利要求7所述的裝置,還包括能夠視覺地顯示具有作為在所述數字化語音中何處開始呈現被識別詞的索引的被識別詞的所述數字化語音的計算機程序指令。
9.如權利要求7所述的裝置,還包括能夠由所述ASR引擎識別在所述數字化語音中的詞,包括標識指示在數字化語音中何處開始呈現該詞的信息的計算機程序指令。
10.如權利要求9所述的裝置,其中,標識指示在數字化語音中何處開始呈現該詞的信息進一步包括:
將所述數字化語音組織到在幀中成組的時域幅度采樣的順序集合,由唯一且基數的幀標識號來順序表征每幀,每幀包括相同的時域幅度采樣數;
將包含該詞的所述數字化語音轉換到以時域幅度采樣的幀中的一幀開始的頻域;以及
通過用每幀中的幅度采樣數乘以幀標識號之一來導出指示在數字化語音中何處開始呈現該詞的索引值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國際商業機器公司,未經國際商業機器公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200810083001.1/1.html,轉載請聲明來源鉆瓜專利網。





