[發明專利]一種通過圖像識別方式實現語音轉寫系統及方法在審
| 申請號: | 202110002612.4 | 申請日: | 2021-01-04 |
| 公開(公告)號: | CN112786019A | 公開(公告)日: | 2021-05-11 |
| 發明(設計)人: | 彭近兵 | 申請(專利權)人: | 中國人民解放軍32050部隊 |
| 主分類號: | G10L15/02 | 分類號: | G10L15/02;G10L15/16;G10L15/22;G10L15/26;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 北京中譽威圣知識產權代理有限公司 11279 | 代理人: | 李澤中 |
| 地址: | 102600 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 通過 圖像 識別 方式 實現 語音 轉寫 系統 方法 | ||
本發明涉及生物特征識別技術領域,為一種通過圖像識別方式實現語音轉寫系統及方法,首先將檢出的語音信號送到語音識別轉寫模塊進行識別轉寫;其次對語音信號進行時頻變換,將語音信號轉變成語譜圖,然后通過圖像處理方式提取語譜圖中的音素特征;最后利用深度學習方法將所述音素特征變換映射到語言文本空間的詞匯。該方案不需要人工提取語音特征,不需要語言模型配合,降低了技術難度和工作量;直接對圖像提取特征,實現圖像特征到詞匯的映射,實際上是基于詞和詞組建模,相對于按音素建模,魯棒性更好;從圖像中提取特征,相對于人工提取的聲學特征而言,維度更高,針對性和區分性更強,識別正確率更高。
技術領域
本發明涉及生物特征識別技術領域,具體涉及一種通過圖像識別方式實現語音轉寫系統及方法。
背景技術
傳統的語音識別技術路線是采用聲學知識和信號處理方法來解決語音識別問題。具體來說,就是把語音當作一種聲音信號,通過信號處理的方法,提取聲音中包含的聲學要素,即音素特征,然后通過分類技術對各音素進行識別,再通過音素組合方法得到單詞完整發音,最后通過查詢單詞發音表實現聲音到文字的對應。其中,信號處理部分以音頻信號為輸入,通過消除噪聲和信道失真對語音進行增強,將信號從時域轉化為頻域。特征提取部分是從信號處理后的結果中提取合適的有代表性的特征向量。聲學模型部分將聲學和發音學的知識進行整合,以特征提取部分生成的特征為輸入,為可變長特征序列生成聲學模型分數(即語音識別概率)。語言模型部分通過從訓練語料中學習詞之間的相互關系來估計假設詞序列的可能性,又叫語言模型分數(即詞序排列概率)。搜索解碼部分針對給定的特征向量序列和若干假設詞序列,計算聲學模型分數和語言模型分數,將總體輸出分數最高的詞序列當作識別結果。
這種技術路線自然直接,很好理解,但是實現起來比較困難,一是在進行聲學特征提取時,提取多少維度特征,提取什么特征,完全是人為決定的,具有很強的主觀性;二是在以音素為單位進行分類時,由于音素粒度過細,對說話人嗓音、外界噪聲的細微變化很敏感,魯棒性差;三是識別出音素后仍需進行音素組合,既繁瑣又會受到多音字、同音字的困擾。
發明內容
本發明提供了一種通過圖像識別方式實現語音轉寫系統及方法,解決了以上所述的傳統語音識別技術路線實現困難、復雜以及準確性不高的技術問題。
本發明為解決上述技術問題提供了一種通過圖像識別方式實現語音轉寫系統,包括語音識別轉寫模塊(Transfer)和轉寫結果解碼模塊(Decode);
所述語音識別轉寫模塊(Transfer)用于將語音信號轉變成語譜圖,然后通過圖像處理方式提取語譜圖中的音素特征,并利用深度學習方法將所述音素特征變換映射到語言文本空間中詞匯的中標概率;
所述轉寫結果解碼模塊(Decode)用于從詞匯空間中找到中標概率最大的詞匯,實現語音到詞匯的轉寫。
優選地,所述語音識別轉寫模塊(Transfer)為CADC模型,所述CADC模型包括:
卷積神經網絡CNN,用于提取語譜圖中的區分性特征,且在卷積神經網絡提取特征的過程中增加自注意力機制Attention;
深度神經網絡DNN,用于實現特征映射,即將CNN所提取的語譜圖特征映射成單詞的中標概率;
CTC,用于實現可變長序列的對齊,計算兩個序列的距離,目的是測算轉寫結果的正確性。
優選地,所述卷積神經網絡CNN包括4個卷積單元和1個展平單元,4個卷積單元分別為第一卷積單元、第二卷積單元、第三卷積單元及第四卷積單元;
第一卷積單元,包含2個卷積運算和1個最大池化運算,其中,每一層卷積運算的卷積核個數為32個;
第二卷積單元,包含2個卷積運算和1個最大池化運算,其中,每一層卷積運算的卷積核個數為64個;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國人民解放軍32050部隊,未經中國人民解放軍32050部隊許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110002612.4/2.html,轉載請聲明來源鉆瓜專利網。
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設備、圖像形成系統和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





