[發明專利]語音識別文本的字段值糾錯方法、裝置及存儲控制器有效
| 申請號: | 201910247910.2 | 申請日: | 2019-03-29 |
| 公開(公告)號: | CN109977412B | 公開(公告)日: | 2022-12-27 |
| 發明(設計)人: | 陳釗;趙煒 | 申請(專利權)人: | 北京林業大學 |
| 主分類號: | G06F40/232 | 分類號: | G06F40/232;G06F40/284;G10L15/26 |
| 代理公司: | 濟南信達專利事務所有限公司 37100 | 代理人: | 李世喆 |
| 地址: | 100083 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 識別 文本 字段 糾錯 方法 裝置 存儲 控制器 | ||
1.一種語音識別文本的字段值糾錯方法,其特征在于,確定預設的漢字音形編碼規則,所述漢字音形編碼規則包括至少一個韻母,以及每一個所述韻母的算法編碼;
確定預設的標準字段值集合,所述標準字段值集合包括至少一個標準字段值,以及每一個所述標準字段值的韻母編碼向量,其中,字段值的韻母編碼向量包括字段值中每一個漢字的韻母的算法編碼;
還包括:
獲取待糾錯字段值;
根據所述漢字音形編碼規則,確定所述待糾錯字段值的韻母編碼向量;
根據所述待糾錯字段值的韻母編碼向量和各個目標標準字段值的韻母編碼向量,分別計算所述待糾錯字段值和各個所述目標標準字段值的韻母相似度,所述目標標準字段值的漢字個數等于所述待糾錯字段值的漢字個數;
判斷全部所述目標標準字段值中是否有且僅有一個第一標準字段值,所述待糾錯字段值和所述第一標準字段值的韻母相似度符合預設的相似度條件,若是,將所述待糾錯字段值糾正為所述第一標準字段值;
所述漢字音形編碼規則還包括至少一個聲母,以及每一個所述聲母的算法編碼;
所述標準字段值集合還包括每一個所述標準字段值的聲母韻母編碼向量,其中,字段值的聲母編碼向量包括字段值中每一個漢字的聲母的算法編碼,字段值的聲母韻母編碼向量包括字段值的韻母編碼向量和字段值的聲母編碼向量;
在所述判斷全部所述目標標準字段值中是否有且僅有一個第一標準字段值之后,進一步包括:
若否,根據所述漢字音形編碼規則,確定所述待糾錯字段值的聲母韻母編碼向量;
根據所述待糾錯字段值的聲母韻母編碼向量和各個所述目標標準字段值的聲母韻母編碼向量,分別計算所述待糾錯字段值和各個所述目標標準字段值的聲母韻母相似度;
根據第二標準字段值對所述待糾錯字段值進行糾錯,所述待糾錯字段值和所述第二標準字段值的聲母韻母相似度不小于任一其他所述聲母韻母相似度。
2.根據權利要求1所述的方法,其特征在于,
字段值的漢字個數小于預設個數時,字段值的韻母編碼向量還包括:排序在后的一定數量的0值算法編碼,以使韻母編碼向量的算法編碼個數等于所述預設個數;
字段值的漢字個數小于所述預設個數時,字段值的聲母編碼向量還包括:排序在后的一定數量的0值算法編碼,以使聲母編碼向量的算法編碼個數等于所述預設個數;
其中,所述預設個數為所述標準字段值集合中第三標準字段值的漢字個數,所述第三標準字段值的漢字個數不小于任一其他所述標準字段值的漢字個數。
3.根據權利要求2所述的方法,其特征在于,
所述相似度條件包括:韻母相似度為1;
所述分別計算所述待糾錯字段值和各個目標標準字段值的韻母相似度,包括:利用公式一,分別計算所述待糾錯字段值和各個目標標準字段值的韻母相似度;
所述分別計算所述待糾錯字段值和各個所述目標標準字段值的聲母韻母相似度,包括:利用公式二,分別計算所述待糾錯字段值和各個所述目標標準字段值的聲母韻母相似度;
所述公式一包括:
所述公式二包括:
其中,對于全部所述目標標準字段值中的任一第四標準字段值,S1為所述待糾錯字段值和所述第四標準字段值的韻母相似度,Ai為所述第四標準字段值的韻母編碼向量中的第i個算法編碼,Bi為所述待糾錯字段值的韻母編碼向量中的第i個算法編碼,n為所述預設個數,S2為所述待糾錯字段值和所述第四標準字段值的聲母韻母相似度,Cj為所述第四標準字段值的聲母韻母編碼向量中的第j個算法編碼,Dj為所述待糾錯字段值的聲母韻母編碼向量中的第j個算法編碼。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京林業大學,未經北京林業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910247910.2/1.html,轉載請聲明來源鉆瓜專利網。





