[發明專利]一種語音輸入方法和系統有效
| 申請號: | 201310701517.9 | 申請日: | 2013-12-18 |
| 公開(公告)號: | CN103677729A | 公開(公告)日: | 2014-03-26 |
| 發明(設計)人: | 陳偉;梁偉文 | 申請(專利權)人: | 北京搜狗科技發展有限公司 |
| 主分類號: | G06F3/16 | 分類號: | G06F3/16 |
| 代理公司: | 北京潤澤恒知識產權代理有限公司 11319 | 代理人: | 趙娟 |
| 地址: | 100084 北京市海淀區中關*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 語音 輸入 方法 系統 | ||
1.一種語音輸入方法,其特征在于,包括:
采集語音數據,并將所述語音數據發送至服務器;
接收所述服務器識別出的所述語音數據對應的第一識別評分最高的前M個候選識別文本及其識別信息,其中,所述識別信息包括第一識別評分;
采用當前用戶的個性化文本數據計算所述前M個候選識別文本的第二識別評分;
采用所述第一識別評分和第二識別評分計算所述前M個候選識別文本的第三識別評分;
計算第三識別評分最高的前N個候選識別文本的置信度;
按照所述置信度展示所述前N個候選識別文本。
2.根據權利要求1所述的方法,其特征在于,所述個性化文本數據包括以下的一種或多種:
輸入行為文本數據、自定義詞庫、設備文本數據、置信度高于預置閾值的語音識別文本。
3.根據權利要求1或2所述的方法,其特征在于,所述候選識別文本包括多個語音候選詞,所述識別信息還包括所述多個語音候選詞的出現概率;
所述采用當前用戶的個性化文本數據計算所述前M個候選識別文本的第二識別評分的步驟包括:
對所述前M個候選識別文本進行分詞,獲得第一分詞;
分別將所述第一分詞映射為預置的第二分詞,其中,所述第二分詞為當前用戶的個性化文本數據的分詞,且所述第二分詞具有詞頻數;
分別采用所述第二分詞查找所述第一分詞的出現概率;所述出現概率為第一詞頻數與第二詞頻數的比值,其中,所述第一詞頻數為當前第一分詞對應的第二分詞,出現在當前第一分詞前面一個或多個第一分詞對應的第二分詞后面的詞頻數,所述第二詞頻數為所述前面一個或多個第一分詞對應的第二分詞的總詞頻數;
采用所述第一分詞的出現概率進行乘法運算以獲得所述候選識別文本的連接概率;
分別采用所述多個語音候選詞的出現概率和所述候選識別文本的連接概率計算所述候選識別文本的第二識別評分。
4.根據權利要求3所述的方法,其特征在于,采用以下公式計算所述候選識別文本的第二識別評分:
其中,為所述多個語音候選詞的出現概率,為所述候選識別文本的連接概率,λ為權重,WP為詞插入懲罰參數。
5.根據權利要求1所述的方法,其特征在于,采用以下公式計算第三識別評分:
MS(i)=α*si+β*ui
其中,MS(i)為第i個候選識別文本的第三識別評分,si為第i個候選識別文本的第一識別評分,ui為第i個候選識別文本的第二識別評分,α和β為非負數。
6.根據權利要求1所述的方法,其特征在于,所述置信度為當前候選識別文本的第三識別評分與所述前N個候選識別文本的第三識別評分的和的比值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京搜狗科技發展有限公司,未經北京搜狗科技發展有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310701517.9/1.html,轉載請聲明來源鉆瓜專利網。





