[發明專利]一種語音識別文本的校正方法、裝置、計算機設備和存儲介質在審

申請號：	201811549312.2	申請日：	2018-12-18
公開（公告）號：	CN109710929A	公開（公告）日：	2019-05-03
發明（設計）人：	曾晶;鄧理平;陳桓;張良杰	申請（專利權）人：	金蝶軟件（中國）有限公司
主分類號：	G06F17/27	分類號：	G06F17/27;G06F16/31;G10L15/26
代理公司：	廣州華進聯合專利商標代理有限公司 44224	代理人：	何平
地址：	518000 廣東省深圳市南山區***	國省代碼：	廣東;44
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	校正候選文本文本語音識別文本編輯距離拼音計算機設備存儲介質聲音單元整體認讀音節篩選聲母韻母語音識別模糊音語料庫準確率長時申請
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種語音識別文本的校正方法，所述方法包括：

獲取經語音識別得到的識別文本中各個詞的拼音；

基于語料庫和所述各個詞的拼音中聲音單元的模糊音確定候選文本；所述聲音單元包括聲母、韻母和整體認讀音節中的至少一種；

根據所述識別文本和所述候選文本間的詞數差、拼音總字母數和詞總數，確定所述候選文本對應的編輯距離；

按照所述編輯距離從所述候選文本中篩選出校正文本。

2.根據權利要求1所述的方法，其特征在于，所述獲取經語音識別得到的識別文本中各個詞的拼音包括：

獲取經語音識別得到的識別文本；

對所述識別文本進行分詞，獲得詞序列；

從所述詞序列中刪除屬于停用詞表的詞，得到經過預處理的識別文本；

確定經過預處理的識別文本中各個詞的拼音。

3.根據權利要求1所述的方法，其特征在于，所述基于語料庫和所述各個詞的拼音中聲音單元的模糊音確定候選文本，包括：

將所述各個詞的拼音中的聲音單元替換為相應的模糊音，得到候選詞拼音；

基于所述候選詞拼音按照倒排索引在語料庫中查詢相應候選詞所在語句；

從查詢到的所述語句中，按照所述識別文本和所述語句間的編輯距離，篩選出候選文本。

4.根據權利要求3所述的方法，其特征在于，所述語料庫的生成步驟包括：

獲取初始語料庫；

提取所述初始語料庫中語句的關鍵詞；

將所述語句中的所述關鍵詞替換為所述關鍵詞的同義詞，得到擴充語句；

在所述初始語料庫中添加所述擴充語句，得到語料庫。

5.根據權利要求4所述的方法，其特征在于，所述方法還包括：

通過詞向量模型，確定所述關鍵詞的詞向量和候選詞的詞向量；

根據所述關鍵詞的詞向量和所述候選詞的詞向量確定所述關鍵詞和候選詞的相似度；

根據所述相似度確定所述關鍵詞的同義詞。

6.根據權利要求1至5中任一項所述的方法，其特征在于，所述候選文本對應的編輯距離與所述詞數差的絕對值正相關，且與所述拼音總字母數正向關，且與所述詞總數負相關。

7.根據權利要求6所述的方法，其特征在于，所述候選文本對應的編輯距離，是所述詞數差的絕對值乘以所述拼音總字母數并除以所述詞總數所得的值。

8.一種語音識別文本的校正裝置，其特征在于，所述裝置包括：

拼音獲取模塊，用于獲取經語音識別得到的識別文本中各個詞的拼音；

候選文本確定模塊，用于基于語料庫和所述各個詞的拼音中聲音單元的模糊音確定候選文本；所述聲音單元包括聲母、韻母和整體認讀音節中的至少一種；

編輯距離計算模塊，用于根據所述識別文本和所述候選文本間的詞數差、拼音總字母數和詞總數，確定所述候選文本對應的編輯距離；

校正文本篩選模塊，用于按照所述編輯距離從所述候選文本中篩選出校正文本。

9.一種計算機設備，包括存儲器和處理器，所述存儲器存儲有計算機程序，其特征在于，所述處理器執行所述計算機程序時實現權利要求1至7中任一項所述方法的步驟。

10.一種計算機可讀存儲介質，其上存儲有計算機程序，其特征在于，所述計算機程序被處理器執行時實現權利要求1至7中任一項所述的方法的步驟。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于金蝶軟件（中國）有限公司，未經金蝶軟件（中國）有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201811549312.2/1.html，轉載請聲明來源鉆瓜專利網。

上一篇：非結構化文本的實體關系抽取方法及裝置
下一篇：一種基于深度神經網絡的中文簡歷解析方法

同類專利

專利分類

G 物理

G06 計算；推算；計數
G06F 電數字數據處理
G06F17-00 特別適用于特定功能的數字計算設備或數據處理設備或數據處理方法
G06F17-10 .復雜數學運算的
G06F17-20 .處理自然語言數據的
G06F17-30 .信息檢索；及其數據庫結構
G06F17-40 .數據的獲取和記錄
G06F17-50 .計算機輔助設計

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】