[發(fā)明專利]一種語音識別中的標點添加方法和裝置無效
| 申請?zhí)枺?/td> | 201310059656.6 | 申請日: | 2013-02-26 |
| 公開(公告)號: | CN103164399A | 公開(公告)日: | 2013-06-19 |
| 發(fā)明(設計)人: | 李健;吳飛;鄭曉明;張連毅;武衛(wèi)東 | 申請(專利權)人: | 北京捷通華聲語音技術有限公司 |
| 主分類號: | G06F17/28 | 分類號: | G06F17/28 |
| 代理公司: | 北京潤澤恒知識產權代理有限公司 11319 | 代理人: | 蘇培華 |
| 地址: | 100193 北京市海淀區(qū)東北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 語音 識別 中的 標點 添加 方法 裝置 | ||
1.一種語音識別中的標點添加方法,其特征在于,包括:
對通過語音識別得到的語句中的當前字詞進行特征提取;
將提取到的當前字詞的特征在預先建立的最大熵模型中進行識別,得到當前字詞之后的標識字符;
根據獲取到的標識字符與各標點的關聯關系,在已知的標識字符集合中選擇與當前字詞之后的標識字符對應的標點,添加到當前字詞之后。
2.根據權利要求1所述的方法,其特征在于,所述對通過語音識別得到的語句中的當前字詞進行特征提取,包括:
根據語音識別得到的語句中各字詞的順序依次判定每個字詞為當前字詞,并確定當前字詞的前n個字詞和后m個字詞,做為當前字詞的特征,n、m為正整數;
其中,所述當前字詞的前n個字詞和后m個字詞包括空字詞。
3.根據權利要求1所述的方法,其特征在于,所述將提取到的當前字詞的特征在預先建立的最大熵模型中進行識別,得到當前字詞之后的標識字符,包括:
在
其中,p(y|x)為預先建立的最大熵模型,x為當前字詞的特征,y為當前字詞之后的標識字符,Z(x)為歸一化系數,fi(x,y)為特征函數,λi為特征函數fi(x,y)的權重,i為正整數。
4.根據權利要求1所述的方法,其特征在于,所述根據獲取到的標識字符與各標點的關聯關系,在已知的標識字符集合中選擇與當前字詞之后的標識字符對應的標點,添加到當前字詞之后,包括:
如果當前字詞之后的標識字符y=Yn,在已知的標識字符集合Y中選擇與Yn具有關聯關系的標點,添加到當前字詞之后;
其中,所述已知的標識字符集合Y={Y1,Y2,Y3,……,Yn,0};Y1、Y2、Y3……Yn、0為各標識字符,分別對應關聯的標點,0表示標點為空。
5.根據權利要求1所述的方法,其特征在于,還包括:
根據預先獲取的數據對所述最大熵模型進行訓練;
其中,所述數據包括:標點和與標點對應的由當前字詞的前n個字詞和后m個字詞組成的特征。
6.一種語音識別中的標點添加裝置,其特征在于,包括:
提取模塊,用于對通過語音識別得到的語句中的當前字詞進行特征提取;
識別模塊,用于將提取到的當前字詞的特征在預先建立的最大熵模型中進行識別,得到當前字詞之后的標識字符;
選擇模塊,用于根據獲取到的標識字符與各標點的關聯關系,在已知的標識字符集合中選擇與當前字詞之后的標識字符對應的標點,添加到當前字詞之后。
7.根據權利要求6所述的裝置,其特征在于,所述提取模塊根據語音識別得到的語句中各字詞的順序依次判定每個字詞為當前字詞,并確定當前字詞的前n個字詞和后m個字詞,做為當前字詞的特征,n、m為正整數;
其中,所述當前字詞的前n個字詞和后m個字詞包括空字詞。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京捷通華聲語音技術有限公司,未經北京捷通華聲語音技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310059656.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:動態(tài)擴展業(yè)務對象的方法和系統
- 下一篇:拉網展架





