[發(fā)明專利]一種基于拼音的語音識別字符串處理比對方法在審
| 申請?zhí)枺?/td> | 201810387614.8 | 申請日: | 2018-04-26 |
| 公開(公告)號: | CN108874872A | 公開(公告)日: | 2018-11-23 |
| 發(fā)明(設計)人: | 孫濤 | 申請(專利權)人: | 深圳市艾塔文化科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/22 |
| 代理公司: | 東莞市中正知識產(chǎn)權事務所(普通合伙) 44231 | 代理人: | 徐康 |
| 地址: | 518000 廣東省深圳市南*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 比對 多音字 漢字拼音 語音識別 拼音串 枚舉 拼音 語音識別技術 漢字字符串 字符串轉(zhuǎn)化 避免誤判 編碼方式 編碼轉(zhuǎn)換 二次加工 漢字識別 目標拼音 拼音編碼 拼音碼 算法 姓氏 漢字 分配 轉(zhuǎn)化 應用 | ||
本發(fā)明涉及一種基于拼音的語音識別字符串處理比對方法。現(xiàn)有的語音識別技術,對于人名的識別、設備名的識別等等某些特殊場合的應用,很容易由于比對的不正確而產(chǎn)生錯誤。本發(fā)明是基于通常漢字識別算法之上的一個“二次加工”,將識別出來的漢字字符串轉(zhuǎn)化為拼音串,然后與目標拼音串進行比對。包括以下步驟:第一步,拼音編碼:將所有的漢字拼音進行編碼,此編碼類似于unicode的編碼,將所有的漢字拼音組合枚舉出來;第二步,編碼轉(zhuǎn)換:將表達漢字的GBK、Unicode、UTF?8等編碼方式的字符串轉(zhuǎn)化為拼音串;第三步,多音字的處理,將所有姓氏的多音字枚舉,進行特殊處理,分配相同的拼音碼。本發(fā)明可以快速實現(xiàn)精準識別、避免誤判。
技術領域
本發(fā)明涉及數(shù)碼電子產(chǎn)品領域,具體涉及一種基于拼音的語音識別字符串處理比對方法。
背景技術
在通常情況下,語音識別是將輸入語音通過特征識別轉(zhuǎn)化為文字的一種技術。而在某些特殊場合的應用,這種通用的技術并不能滿足人們的需要,比如對人名的識別、設備名的識別等等,也許語音識別算法通過輸入的語音識別出“于國權”這個字符串,而真正的用戶講的可能是“余國全”,由于姓名本身很少有上下文的關聯(lián)性,就會造成比對的不正確。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種基于拼音的語音識別字符串處理比對方法。在需要“特殊性名詞”對“音”進行識別的小字符集場合,如姓名、設備名、地名等等,可以快速實現(xiàn)精準識別、避免誤判。
本發(fā)明識別算法是基于通常漢字識別算法之上的一個“二次加工”,將識別出來的漢字字符串轉(zhuǎn)化為拼音串,然后與目標拼音串進行比對。
本發(fā)明方法包括以下步驟:
第一步:拼音編碼:將所有的漢字拼音進行編碼,此編碼類似于unicode的編碼,將所有的漢字拼音組合枚舉出來(根據(jù)需要也可以包含聲調(diào))。我們用兩個字節(jié)(16位)來編碼拼音,第一個字節(jié)的最高位為1,如下表:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳市艾塔文化科技有限公司,未經(jīng)深圳市艾塔文化科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810387614.8/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





