[發(fā)明專利]在智能漢語語音口述記錄校正中使用字符描述器有效輸入模糊字符在審
| 申請(qǐng)?zhí)枺?/td> | 201280075499.1 | 申請(qǐng)日: | 2012-09-07 |
| 公開(公告)號(hào): | CN104756183A | 公開(公告)日: | 2015-07-01 |
| 發(fā)明(設(shè)計(jì))人: | 李偉;徐然;任曉琳 | 申請(qǐng)(專利權(quán))人: | 紐昂斯通訊公司 |
| 主分類號(hào): | G10L15/22 | 分類號(hào): | G10L15/22 |
| 代理公司: | 北京安信方達(dá)知識(shí)產(chǎn)權(quán)代理有限公司 11262 | 代理人: | 寧曉;鄭霞 |
| 地址: | 美國(guó)馬*** | 國(guó)省代碼: | 暫無信息 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 智能 漢語 語音 口述 記錄 校正 使用 字符 描述 有效 輸入 模糊 | ||
描述了用于漢語語音識(shí)別輸入的用戶消歧的計(jì)算機(jī)實(shí)現(xiàn)的方法。從用戶接收用于自動(dòng)語音識(shí)別的漢語語音輸入。也從用戶接收描述語音輸入中的一個(gè)或多個(gè)字符的自發(fā)字符描述提示。然后基于字符描述提示來執(zhí)行語音輸入的自動(dòng)語音識(shí)別以確定對(duì)應(yīng)于語音輸入的一個(gè)或多個(gè)漢語語言字符。
本申請(qǐng)要求通過引用被并入本文的2012年8月29日提交的美國(guó)臨時(shí)專利申請(qǐng)61/694,450的優(yōu)先權(quán)。
技術(shù)領(lǐng)域
本發(fā)明涉及漢語中的自動(dòng)語音識(shí)別,且具體地涉及基于自發(fā)用戶字符描述提示的漢語字符的消歧。
背景技術(shù)
自動(dòng)語音識(shí)別(ASR)系統(tǒng)確定語音輸入的語義意義。通常,輸入語音被處理成一序列數(shù)字語音特征幀。每個(gè)語音特征幀可被考慮為代表在短的語音時(shí)間窗期間存在的語音信號(hào)的各種特征的多維矢量。例如,可從語音信號(hào)的短時(shí)傅立葉變換頻譜的倒譜特征(MFCC)——給定頻帶的短時(shí)功率或分量——以及相應(yīng)的第一和第二階導(dǎo)數(shù)(“δ”和“δ-δ”)得到每個(gè)語音幀的多維矢量。在連續(xù)識(shí)別系統(tǒng)中,可變數(shù)量的語音幀被組織為代表后面是停頓的一段時(shí)間的語音的“發(fā)音”,這在現(xiàn)實(shí)生活中不嚴(yán)謹(jǐn)?shù)貙?duì)應(yīng)于說出的句子或短語。
ASR系統(tǒng)比較多個(gè)輸入語音幀以查找最好地匹配語音特征特性的統(tǒng)計(jì)模型,并接著確定與統(tǒng)計(jì)模型相關(guān)的相應(yīng)的代表性文本或語義意義。現(xiàn)代統(tǒng)計(jì)模型是狀態(tài)序列模型,例如使用高斯分布的混合來模仿語音聲音(通常是音素)的隱馬爾可夫模型(HMM)。這些統(tǒng)計(jì)模型常常代表被稱為PEL(語音要素)的特定上下文中的音素,例如具有已知的左上下文和/或右上下文的三音子或音素。狀態(tài)序列模型可按比例增加以將詞表示為聲音建模的音素的連接序列、或?qū)⒍陶Z或句子表示為詞的連接序列。當(dāng)統(tǒng)計(jì)模型被一起組織為詞、短語和句子時(shí),額外的語言相關(guān)的信息也一般合并到以語言建模的形式的模型中。
與最佳匹配模型結(jié)構(gòu)相關(guān)的詞或短語被稱為識(shí)別候選項(xiàng)或假設(shè)。系統(tǒng)可產(chǎn)生單個(gè)最佳識(shí)別候選項(xiàng)——識(shí)別結(jié)果——或被稱為N最佳列表的幾個(gè)假設(shè)的列表。在標(biāo)題為“連續(xù)語音識(shí)別(Continuous Speech Recognition)”的編號(hào)為5,794,189的美國(guó)專利和標(biāo)題為“語音識(shí)別語言模型(Speech Recognition Language Models)”的編號(hào)為6,167,377的美國(guó)專利中提供了關(guān)于連續(xù)語音識(shí)別的另外的細(xì)節(jié),這兩個(gè)專利的內(nèi)容通過引用被并入本文。
在語音識(shí)別中的完美準(zhǔn)確性不能被實(shí)現(xiàn),且在識(shí)別結(jié)果中的一些詞將不可避免地需要校正。在例如駕駛的一些情況中,手操作是不可用的,且所有校正需要只通過話音命令來實(shí)現(xiàn)。
對(duì)于西方語言,通常在單詞級(jí)別上來完成識(shí)別校正(例如,通過再次說出正確的單詞)。如果單詞太模棱兩可或由于其他原因難以識(shí)別,則用戶可總是能夠依靠拼讀該單詞來輸入它。然而漢語詞由不能被拼寫的一個(gè)或多個(gè)音調(diào)字符組成,且語音識(shí)別引擎必須正確地識(shí)別期望字符。
在漢語中的基本獨(dú)立語音單位是字符,其像在西方語言中的單詞所起的作用一樣在句子中起重要的作用。當(dāng)輸入不能被語言模型和統(tǒng)計(jì)頻率引導(dǎo)的名字、地址、專有名詞和商標(biāo)時(shí),準(zhǔn)確的字符輸入是十分重要的。而且,通過話音或拼音的字符輸入很難,因?yàn)楹芏嘧址灿孟嗤陌l(fā)音。例如,如圖1所示,字符“李”與248個(gè)其它字符共用“Li”的發(fā)音。因此非常難以在不告知上下文的情況下準(zhǔn)確地口述記錄或識(shí)別單個(gè)漢語字符。
講漢語的人已經(jīng)接受了描述和弄清楚在日常對(duì)話中的給定字符的方式:
·通過使用在示例詞、短語或?qū)S忻~(例如著名人士的名字、品牌或廣告)中的字符
·通過說出期望字符的一個(gè)或多個(gè)偏旁部分
·通過說出期望字符的一個(gè)或多個(gè)結(jié)構(gòu)要素
·通過提供期望字符的音調(diào)描述信息
概述
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于紐昂斯通訊公司,未經(jīng)紐昂斯通訊公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201280075499.1/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。





