[發(fā)明專利]一種在線端對端語音轉(zhuǎn)寫方法及系統(tǒng)有效
| 申請?zhí)枺?/td> | 201911415035.0 | 申請日: | 2019-12-31 |
| 公開(公告)號: | CN111128191B | 公開(公告)日: | 2023-03-28 |
| 發(fā)明(設(shè)計)人: | 張鵬遠(yuǎn);繆浩然;程高峰;顏永紅 | 申請(專利權(quán))人: | 中國科學(xué)院聲學(xué)研究所 |
| 主分類號: | G10L15/26 | 分類號: | G10L15/26;G10L15/16;G10L15/30;G10L25/03;G10L25/24;G10L25/30 |
| 代理公司: | 北京億騰知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11309 | 代理人: | 陳霽 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 在線 語音 轉(zhuǎn)寫 方法 系統(tǒng) | ||
本發(fā)明提供一種在線端對端語音轉(zhuǎn)寫方法及系統(tǒng),在一個實施例中,對所述音頻文件提取聲學(xué)特征;對所述聲學(xué)特征進行非線性變換和降采樣并輸出第一特征序列;將第一特征序列進行分塊,依次將每塊特征序列輸入到編碼器中并輸出多組第二特征序列;對所述第二特征序列進行建模,輸出多組漢字序列并對所述多組漢字序列進行打分;將分?jǐn)?shù)最高的漢字序列作為最終轉(zhuǎn)寫結(jié)果。通過改進編碼器結(jié)構(gòu),讓其處理分塊的音頻;通過改進解碼器的結(jié)構(gòu),讓其在截斷音頻的基礎(chǔ)上輸出漢字。使得在輸入音頻的同時轉(zhuǎn)寫文本。
技術(shù)領(lǐng)域
本發(fā)明涉及語音轉(zhuǎn)寫技術(shù)領(lǐng)域,尤其涉及一種在線端對端語音轉(zhuǎn)寫方法及系統(tǒng)。
背景技術(shù)
語音轉(zhuǎn)寫技術(shù)是將輸入的音頻轉(zhuǎn)換為文本的重要技術(shù),也是人機交互領(lǐng)域的一個重要研究內(nèi)容。
傳統(tǒng)的語音轉(zhuǎn)寫技術(shù)包含聲學(xué)模型、發(fā)音字典和語言模型,并且借助加權(quán)有限狀態(tài)轉(zhuǎn)換機構(gòu)建復(fù)雜的解碼網(wǎng)絡(luò),將聲學(xué)特征序列轉(zhuǎn)換為文本序列。當(dāng)前新興的端對端語言轉(zhuǎn)寫技術(shù)采用單個神經(jīng)網(wǎng)絡(luò)模型,直接將聲學(xué)特征轉(zhuǎn)換為文本序列,極大地簡化了語音轉(zhuǎn)寫過程中的解碼流程。但是目前的高性能的端對端語音轉(zhuǎn)寫必須等待完整的音頻輸入后,才能開始轉(zhuǎn)換為文本序列,限制了端對端語音轉(zhuǎn)寫技術(shù)應(yīng)用于實時轉(zhuǎn)寫的在線任務(wù)。
發(fā)明內(nèi)容
有鑒于此,本申請實施例提供了一種在線端對端語音轉(zhuǎn)寫方法及系統(tǒng),克服了現(xiàn)有的端對端語音轉(zhuǎn)寫技術(shù)不能應(yīng)用于實時轉(zhuǎn)寫在線任務(wù)的問題,通過改進基于編碼器和解碼器結(jié)構(gòu)的端對端語音轉(zhuǎn)寫技術(shù),使得編碼器和解碼器不再依賴完整的音頻就能開始轉(zhuǎn)換為文本序列。
第一方面,本發(fā)明申請?zhí)峁┝艘环N在線端對端語音轉(zhuǎn)寫方法包括:
獲取音頻文件,對所述音頻文件提取聲學(xué)特征;
對所述聲學(xué)特征進行非線性變換和降采樣并輸出第一特征序列;
將第一特征序列進行分塊,依次將每塊特征序列輸入到編碼器中并輸出多組第二特征序列;
對所述第二特征序列進行建模,輸出多組漢字序列并對所述多組漢字序列進行打分;
將分?jǐn)?shù)最高的漢字序列作為最終轉(zhuǎn)寫結(jié)果。
可選地,所述獲取音頻文件,對所述音頻文件提取聲學(xué)特征包括:
對獲取的音頻文件提取對數(shù)梅爾譜特征作為幀級別聲學(xué)特征。
可選地,所述編碼器為基于自注意力機制的在線編碼器;
所述編碼器由12個相同的子模塊堆疊組成,每個子模塊依次由自注意力網(wǎng)絡(luò)、殘差網(wǎng)絡(luò)、層規(guī)范化網(wǎng)絡(luò)、全連接網(wǎng)絡(luò)、殘差網(wǎng)絡(luò)和層規(guī)范化網(wǎng)絡(luò)堆疊組成。
可選地,所述對所述第二特征序列進行處理,輸出多組漢字序列并對所述多組漢字序列進行打分包括:
構(gòu)建基于自注意力機制的在線解碼器,所述解碼器對第二特征序列進行建模,并對輸出的多組漢字序列進行打分;
所述解碼器由6個相同的子模塊堆疊組成,其中每個子模塊為一層自注意力網(wǎng)絡(luò)、一層殘差網(wǎng)絡(luò)、一層層規(guī)范化網(wǎng)絡(luò)、一層截斷注意力網(wǎng)絡(luò)、一層殘差網(wǎng)絡(luò)、一層層規(guī)范化網(wǎng)絡(luò)、一層全連接網(wǎng)絡(luò)、一層殘差網(wǎng)絡(luò)和一層層規(guī)范化網(wǎng)絡(luò)。
可選地,所述解碼器對第二特征序列進行建模,并對輸出的多組漢字序列進行打分包括:
將多組第二特征序列依次通過所述解碼器的6個子模塊,將最后一個子模塊的層規(guī)范網(wǎng)絡(luò)的輸出特征輸入漢字分類器;
所述漢字分類器輸出多組漢字以及每組漢字對應(yīng)的分?jǐn)?shù);
取排名前十的漢字分別輸入解碼器輸出下一個漢字,直到解碼器輸出終止符為止。
第二方面,本發(fā)明申請?zhí)峁┝艘环N在線端對端語音轉(zhuǎn)寫系統(tǒng)包括:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國科學(xué)院聲學(xué)研究所,未經(jīng)中國科學(xué)院聲學(xué)研究所許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911415035.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 用于呈現(xiàn)在線實體在線狀態(tài)的系統(tǒng)和方法
- 提供web服務(wù)接入的在線系統(tǒng)和方法
- 定制在線圖標(biāo)
- 一種水質(zhì)在線檢測預(yù)處理裝置
- 在線測試學(xué)習(xí)方法、系統(tǒng)、計算機設(shè)備及存儲介質(zhì)
- 一種在線文檔的分頁方法、裝置、設(shè)備以及可讀介質(zhì)
- 一種基于web在線學(xué)習(xí)的資源訪問平臺
- 一種在線學(xué)習(xí)系統(tǒng)
- 在線文檔提交方法、裝置、計算機設(shè)備和存儲介質(zhì)
- 空調(diào)冷媒量確定方法、系統(tǒng)和可讀存儲介質(zhì)





