[發明專利]語音識別文本的糾錯方法和裝置有效
| 申請號: | 201410778108.3 | 申請日: | 2014-12-15 |
| 公開(公告)號: | CN104464736B | 公開(公告)日: | 2018-02-02 |
| 發明(設計)人: | 時迎超;周曉;張海雷 | 申請(專利權)人: | 北京百度網訊科技有限公司 |
| 主分類號: | G10L15/26 | 分類號: | G10L15/26 |
| 代理公司: | 北京品源專利代理有限公司11332 | 代理人: | 路凱,胡彬 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 識別 文本 糾錯 方法 裝置 | ||
1.一種語音識別文本的糾錯方法,其特征在于,包括:
根據語音識別的結果文本的多層次K-Gram索引,拉取用于對所述結果文本進行糾錯的至少一個候選糾錯文本;
確定所述至少一個候選糾錯文本分別與所述結果文本之間的模糊音編輯距離矩陣;
根據確定的模糊音編輯距離矩陣獲取所述至少一個候選糾錯文本分別與所述結果文本之間的模糊音編輯距離及候選糾錯邊界;
根據所述至少一個候選糾錯文本分別對應的模糊音編輯距離選取糾錯文本,并根據所述糾錯文本所對應的候選糾錯邊界對所述結果文本進行糾錯;
其中,確定所述至少一個候選糾錯文本分別與所述結果文本之間的模糊音編輯距離矩陣包括:
對于拉取到的每個候選糾錯文本,將初始化的模糊音編輯距離矩陣中替換操作對應元素的取值,設置為所述元素所對應的當前候選糾錯文本中的字符與所述元素所對應的結果文本中的字符之間的模糊音相似度;
根據動態規劃算法確定所述模糊音編輯距離矩陣中的非替換操作對應元素的取值,得到當前候選糾錯文本與所述結果文本之間的模糊音編輯距離矩陣;
其中,所述候選糾錯文本為非模板候選糾錯文本或模板候選糾錯文本。
2.根據權利要求1所述的方法,其特征在于,根據語音識別的結果文本的多層次K-Gram索引,拉取用于對所述結果文本進行糾錯的至少一個候選糾錯文本包括:
根據漢字層次、拼音音節層次、全拼或簡拼層次或者聲母韻母層次的K-Gram索引,拉取用于對所述結果文本進行糾錯的至少一個非模板候選糾錯文本。
3.根據權利要求1所述的方法,其特征在于,獲取所述至少一個候選糾錯文本分別與所述結果文本之間的模糊音編輯距離及候選糾錯邊界包括:
對于確定的每個模糊音編輯距離矩陣,通過路徑回溯獲取當前模糊音編輯距離矩陣的模糊音編輯距離及對應的候選糾錯邊界;
將當前模糊音編輯距離矩陣的模糊音編輯距離及對應的候選糾錯邊界,作為當前模糊音編輯距離矩陣對應的非模板候選糾錯文本與所述結果文本之間的模糊音編輯距離及候選糾錯邊界。
4.根據權利要求1所述的方法,其特征在于,根據語音識別的結果文本的多層次K-Gram索引,拉取用于對所述結果文本進行糾錯的至少一個候選糾錯文本包括:
根據漢字層次、拼音音節層次、全拼或簡拼層次或者聲母韻母層次的K-Gram索引,拉取用于對所述結果文本進行糾錯的至少一個候選糾錯文本;
識別每個候選糾錯文本中包含的專有名詞,并使用通配符替換所述專有名詞,以得到至少一個模板候選糾錯文本。
5.根據權利要求4所述的方法,其特征在于,獲取所述至少一個候選糾錯文本分別與所述結果文本之間的模糊音編輯距離及候選糾錯邊界包括:
對于確定的每個模糊音編輯距離矩陣,通過路徑回溯獲取當前模糊音編輯距離矩陣的模糊音編輯距離及對應的候選糾錯邊界;
確定當前模糊音編輯距離矩陣的模糊音編輯距離,與當前模糊音編輯距離矩陣對應的模板候選糾錯文本中的通配符所對應的編輯距離之間的差值;
將所述差值作為當前模糊音編輯距離矩陣對應的模板候選糾錯文本與所述結果文本之間的模糊音編輯距離。
6.根據權利要求1所述的方法,其特征在于,在拉取用于對所述結果文本進行糾錯的至少一個候選糾錯文本之后,確定所述至少一個候選糾錯文本分別與所述結果文本之間的模糊音編輯距離矩陣之前,還包括:
根據用戶的所在地點或者經常經過地點,對所述至少一個候選糾錯文本進行篩選,以篩選出與用戶相關的至少一個地名性候選糾錯文本。
7.根據權利要求1所述的方法,其特征在于,根據所述至少一個候選糾錯文本分別對應的模糊音編輯距離選取糾錯文本包括:
若所述至少一個候選糾錯文本的個數大于一個,則選擇所述至少一個候選糾錯文本中模糊音編輯距離最小的一個作為糾錯文本;
若所述至少一個候選糾錯文本的個數為一個,則依據預先設定的模糊音編輯距離閾值和該候選糾錯文本的模糊音編輯距離的大小關系,判斷是否將所述候選糾錯文本作為糾錯文本。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網訊科技有限公司,未經北京百度網訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410778108.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:單次可編程記憶體及其操作方法和編程方法以及電子系統
- 下一篇:鍵盤裝置





