[發明專利]一種語音識別結果糾錯方法在審
| 申請號: | 201710994082.X | 申請日: | 2017-10-23 |
| 公開(公告)號: | CN107729321A | 公開(公告)日: | 2018-02-23 |
| 發明(設計)人: | 葉偉 | 申請(專利權)人: | 上海百芝龍網絡科技有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G10L15/26 |
| 代理公司: | 上海伯瑞杰知識產權代理有限公司31227 | 代理人: | 孟旭彤 |
| 地址: | 200050 上海*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 語音 識別 結果 糾錯 方法 | ||
技術領域
本發明屬于人工智能技術領域,特別涉及一種語音識別結果糾錯方法。
背景技術
隨著語音識別技術的日臻成熟,語音交互使用范圍越來越廣。相比其他交互方式,語音交互所實現的交互方式更符合人們的日常習慣,也更為高效。目前,語音交互方式在智能家居、工業控制、駕駛輔助等各個領域,都得到了廣泛應用。
在實際應用中,由于周圍噪音、方言等因素的影響,語音交互過程中語音識別的結果往往與用戶的表達不一致。尤其在日??谡Z場景下,語音識別的錯誤率較高。而現有技術中,都集中在提升語音識別準確率上,卻缺乏對識別錯誤的糾錯手段,因而影響了語音識別技術的進一步推廣。
發明內容
本發明提供一種語音識別結果糾錯方法,用以對語音識別的結果文本進行準確的糾錯。
一種語音識別結果糾錯方法,包括以下步驟:
S11,對語音識別結果進行預處理;
S12,找出語音識別結果中容易出錯的詞句,或對文本語義解析重要的待糾正詞、字;
S13,對待糾正詞、字進行注音,包括全拼和各拼音首字母兩種拼音方式,得到待糾正語音識別結果對應的拼音,對應的拼音是指無音調;
S14,根據所述拼音全拼方式,利用編輯距離確算法,確定最優候選文本及次優候選文本;
S15,根據所述拼音首字母,再次利用編輯距離算法,確定最優候選文本及次優候選文本;
S16,將所有最優候選文本及次優候選文本合并,重復的候選項只保留一個;
S17,分別將準候選文本替換待糾錯文本,利用n-grama語言模型分別計算出各替換后的各自語句概率,選取概率最高的作為最終所述待糾正的語音識別結果。
步驟S11中的預處理包括分詞、詞性標注、去停用詞及進行語法分析文本操作。
本發明通過對語音識別結果進行分詞、詞性標注、去除停用詞及進行語法分析。將結果中動賓結構短語、動詞、名詞及未在詞典庫中出現的詞作為待糾正文本,同時注意保持各詞在原語音文本中的順序;將待糾正文本結果進行分詞,并得到各分詞所對應的拼音;根據各分詞所述拼音從詞典庫中獲取候選詞,并在候選詞中確定最優候選詞;判斷所述最優候選詞是否滿足預設條件;如果滿足預設條件,用所述最優候選詞替換原文本待糾正詞。將所有糾正結果合并,得出最終語音識別糾正結果。
附圖說明
通過參考附圖閱讀下文的詳細描述,本發明示例性實施方式的上述以及其他目的、特征和優點將變得易于理解。在附圖中,以示例性而非限制性的方式示出了本發明的若干實施方式,其中:
圖1本發明實施例中的語音識別結果糾錯方法的流程示意圖。
具體實施方式
參見圖1,本實施例的方法包括:
S11:對語音識別結果進行分詞、詞性標注、去停用詞及進行語法分析等文本操作
S12:根據已有或將來出現的技術,找出容易出錯或對文本語義解析重要的待糾正詞、字。尤其注意語音識別結果中動賓結構短語、動詞、名詞及未在詞典庫中出現的詞。
S13:對待糾正詞、字進行注音,得到待糾正語音識別結果對應的拼音,對應的拼音是指無音調。
此種情況又分多種情況,詳細闡述如下:
同音別字,取全拼:
例如,待糾正的語音識別結果是“看三聲三是”,分完詞后對應的拼音是:kan san sheng san shi
發音不標準,取各字首字母:
例如,待糾正的語音識別結果是“看山山山是”,分完詞后對應的拼音是:kan shan shan shan shi,可對其只取各詞首字母k s s s s
S14:首先根據所述拼音全拼,利用編輯距離確算法,確定最優候選文本及次優候選文本;
S15:其次根據所述拼音首字母,再次利用編輯距離算法,確定最優候選文本及次優候選文本。
S16:將所有最優候選文本及次優候選文本合并,重復的候選項只保留一個,所有統稱為準候選文本。
S17:分別將準候選文本替換待糾錯文本,利用n-grama語言模型分別計算出各替換后的各自語句概率,選取概率最高的作為最終所述待糾正的語音識別結果
值得說明的是,雖然前述內容已經參考若干具體實施方式描述了本發明創造的精神和原理,但是應該理解,本發明并不限于所公開的具體實施方式,對各方面的劃分也不意味著這些方面中的特征不能組合,這種劃分僅是為了表述的方便。本發明旨在涵蓋所附權利要求的精神和范圍內所包括的各種修改和等同布置。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海百芝龍網絡科技有限公司,未經上海百芝龍網絡科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710994082.X/2.html,轉載請聲明來源鉆瓜專利網。





