[發明專利]基于數據處理的電話號碼糾錯方法、裝置及計算機設備在審
| 申請號: | 201811446909.4 | 申請日: | 2018-11-29 |
| 公開(公告)號: | CN109712616A | 公開(公告)日: | 2019-05-03 |
| 發明(設計)人: | 吳建財;鄒芳;邢艷 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G10L15/22 | 分類號: | G10L15/22;G10L15/26;G06F17/27 |
| 代理公司: | 深圳市明日今典知識產權代理事務所(普通合伙) 44343 | 代理人: | 王杰輝 |
| 地址: | 518000 廣東省深圳市福田區福*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 生字 相似度 聲母 韻母 聲調 計算機設備 最佳相似度 漢語語音 數據處理 文本 預設 糾錯 語音識別技術 存儲介質 漢語拼音 語音識別 準確率 資料庫 替換 漢字 語音 查找 中文 轉化 | ||
1.一種基于數據處理的電話號碼糾錯方法,其特征在于,包括:
獲取漢語語音,并通過語音識別技術將所述漢語語音轉化為文本;
在所述文本中查找出轉錯電話號碼,所述轉錯電話號碼為所述語音在轉化成文本時,將正確的電話號碼誤轉化成一串包含數字以及中文漢字的連續字;
在所述轉錯號碼中獲取誤轉為中文漢字的轉錯生字;
依據所述轉錯生字在預設資料庫中獲取所述轉錯生字的漢語拼音中的聲母、韻母和聲調;
將所述轉錯生字的聲母、韻母和聲調分別與對比數字的聲母、韻母和聲調依次進行對比,以獲得所述轉錯生字與每個對比數字的相似度值,所述對比數字為阿拉伯數字的中文讀音的字;
將超過預設相似度閥值的所有相似度值中數值最高的相似度值設為最佳相似度值;
將所述轉錯生字替換成所述最佳相似度值對應的所述對比數字以得到糾后電話號碼。
2.根據權利要求1所述的基于數據處理的電話號碼糾錯方法,其特征在于,所述在所述文本中查找出轉錯電話號碼的步驟,包括:
在所述文本中找出預設的電話號碼的起始數字;
判斷排序次于所述起始數字之后的連續10個字當中是否包含預設數量的數字;
若是,將所述起始數字及之后連續10個字所形成的一串連續字默認為所述轉錯電話號碼。
3.根據權利要求1所述的基于數據處理的電話號碼糾錯方法,其特征在于,所述在所述轉錯號碼中獲取誤轉為中文漢字的轉錯生字的步驟,包括:
將所述轉錯電話號碼中每個字與0-9中的十個阿拉伯數字依次進行對比以獲得所述轉錯生字。
4.根據權利要求1所述的基于數據處理的電話號碼糾錯方法,其特征在于,所述將所述轉錯生字的聲母、韻母和聲調分別與對比數字的聲母、韻母和聲調依次進行對比,以獲得所述轉錯生字與每個對比數字的相似度值的步驟,包括:
將所述轉錯生字的聲母、韻母和聲調分別與所述對比數字的聲母、韻母和聲調依次進行對比;
若所述轉錯生字與所述對比數字的聲母相同,則第一聲母相似度值為a,若所述轉錯生字與所述對比數字的聲母不相同,則所述第一聲母相似度值為0;
若所述轉錯生字與所述對比數字的韻母相同,則第一韻母相似度值為b,若所述轉錯生字與所述對比數字的韻母不相同,則所述第一韻母相似度值為0;
若所述轉錯生字與所述對比數字的聲調相同,則第一聲調相似度值為c,若所述轉錯生字與所述對比數字的聲調不相同,則所述第一聲調相似度值為0;
將所述第一聲母相似度值、第一韻母相似度值和第一聲調相似度值相加,以得到所述轉錯生字與所述對比數字的相似度值;
其中,所述a、b、c均為預設的正數。
5.根據權利要求1所述的基于數據處理的電話號碼糾錯方法,其特征在于,所述將所述轉錯生字的聲母、韻母和聲調分別與對比數字的聲母、韻母和聲調依次進行對比,以獲得所述轉錯生字與每個對比數字的相似度值的步驟,包括:
判斷所述轉錯生字的漢語拼音中是否具有聲母;
若所述轉錯生字的漢語拼音中未具有聲母,則判斷所述轉錯生字與所述對比數字的韻母是否一致;
若所述轉錯生字與所述對比數字的韻母相同,則第二韻母相似度值為d,并判斷所述轉錯生字與所述對比數字的聲調是否相同,若所述轉錯生字與所述對比數字的韻母不相同,則第二韻母相似度值為0,并判斷所述轉錯生字與所述對比數字的聲調是否相同;
若所述轉錯生字與所述對比數字的聲調相同,則第二聲調相似度值為e,若所述轉錯生字與所述對比數字的聲調不相同,則第二聲調相似度值為0;
將所述第二韻母相似度值以及所述第二聲調相似度值相加得到所述轉錯生字與所述對比數字的相似度值;
其中,所述d、e均為預設的正數。
6.根據權利要求1所述的基于數據處理的電話號碼糾錯方法,其特征在于,所述將超過預設相似度閥值的所有相似度值中數值最高的相似度值設為最佳相似度值的步驟之前,包括:
將所述轉錯生字與每個對比數字的相似度值逐一與所述預設相似度閥值進行對比;
若所述轉錯生字與每個對比數字的相似度值均未超過所述預設相似度閥值,則將所述轉錯生字剔除。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811446909.4/1.html,轉載請聲明來源鉆瓜專利網。





