[發明專利]一種識別數據的方法和裝置在審
| 申請號: | 201911013912.1 | 申請日: | 2019-10-23 |
| 公開(公告)號: | CN112786014A | 公開(公告)日: | 2021-05-11 |
| 發明(設計)人: | 陳生泰 | 申請(專利權)人: | 北京京東振世信息技術有限公司 |
| 主分類號: | G10L15/02 | 分類號: | G10L15/02;G10L15/06;G06F40/289;G06F40/151;G06F30/27 |
| 代理公司: | 中原信達知識產權代理有限責任公司 11219 | 代理人: | 張一軍;王安娜 |
| 地址: | 100086 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 識別 數據 方法 裝置 | ||
本發明公開了一種識別數據的方法和裝置,涉及計算機技術領域。該方法的一具體實施方式包括:從語料庫中獲取多個文本數據,采用所述文本數據訓練序列到序列模型,得到訓練后的序列到序列模型;將待識別的文本數據轉換為待識別的拼音格式數據;將所述待識別的拼音格式數據輸入到所述訓練后的序列到序列模型中,以輸出目標文本數據。該實施方式能夠解決無法準確識別專業領域內的詞匯的技術問題。
技術領域
本發明涉及計算機技術領域,尤其涉及一種識別數據的方法和裝置。
背景技術
在通用語料領域內,現有的語音識別模型能夠輸出較好的識別結果。常用的模型有兩階段模型和端到端模型,其中兩階段模型是上游模型先將音頻信號轉換為音節信號,使用的模型框架有CNN-CTC、GRU-CTC、CNN-RNN-CTC、DFCNN等,下游模型再把音節信號轉換為字信號(英文的單詞和中文的漢字),使用的模型框架主要有transformer、CBHG等;端到端模型則是輸入音頻信號,直接輸出字信號。
在實現本發明過程中,發明人發現現有技術中至少存在如下問題:
無論是兩階段模型還是端到端模型,在通用語料領域內的識別結果都已經達到了較高的準確率,但是在一些專業領域內的識別效果還是差強人意。主要原因是:現有的很多語音識別模型主要是解決通用場景的需求,并沒有切入到專業領域內去單獨建模;而且語音數據的標注成本十分昂貴,也缺乏相應的標注語音數據,因此也沒有預算去標注語音數據來優化語音識別模型。
使用通用語音識別模型來對專業領域內的音頻進行識別時,無法準確地識別出一些專業名詞,而且由于專業領域內的詞匯詞頻與通用領域是不匹配的,因此識別出的文字一般是通用語料里面的詞匯,導致識別結果不夠準確。
發明內容
有鑒于此,本發明實施例提供一種識別數據的方法和裝置,以解決無法準確識別專業領域內的詞匯的技術問題。
為實現上述目的,根據本發明實施例的一個方面,提供了一種識別數據的方法,包括:
從語料庫中獲取多個文本數據,采用所述文本數據訓練序列到序列模型,得到訓練后的序列到序列模型;
將待識別的文本數據轉換為待識別的拼音格式數據;
將所述待識別的拼音格式數據輸入到所述訓練后的序列到序列模型中,以輸出目標文本數據。
可選地,采用所述文本數據訓練序列到序列模型,得到訓練后的序列到序列模型,包括:
對所述文本數據依次進行去除符號處理和分字處理;
將分字處理后的所述文本數據轉換為拼音格式數據;
以拼音格式數據作為輸入、以分字處理后的文本數據作為輸出,訓練序列到序列模型,從而得到訓練后的序列到序列模型。
可選地,將分字處理后的所述文本數據轉換為拼音格式數據,包括:
若分字處理后的所述文本數據中含有漢字,則僅將所述漢字轉換為無音調的拼音。
可選地,對所述文本數據進行分字處理,包括:
若所述文本數據中含有漢字,則將所述漢字切分為單個漢字;
若所述文本數據中含有數字,則將所述數字切分為單個數字;
若所述文本數據中含有英文,則將所述漢字切分為單個字母。
可選地,將待識別的文本數據轉換為待識別的拼音格式數據,包括:
對待識別的文本數據依次進行去除符號處理和分字處理;
將分字處理后的所述待識別的文本數據中的漢字轉換為無音調的拼音,從而得到待識別的拼音格式數據。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京京東振世信息技術有限公司,未經北京京東振世信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911013912.1/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





