[發(fā)明專利]一種語(yǔ)種訓(xùn)練數(shù)據(jù)獲得方法及裝置有效
| 申請(qǐng)?zhí)枺?/td> | 201910015434.1 | 申請(qǐng)日: | 2019-01-08 |
| 公開(kāi)(公告)號(hào): | CN109741731B | 公開(kāi)(公告)日: | 2020-12-29 |
| 發(fā)明(設(shè)計(jì))人: | 袁慶升;汪立東;包秀國(guó);張鴻;時(shí)磊;張衛(wèi)強(qiáng);邵云飛 | 申請(qǐng)(專利權(quán))人: | 國(guó)家計(jì)算機(jī)網(wǎng)絡(luò)與信息安全管理中心;清華大學(xué) |
| 主分類號(hào): | G10L15/00 | 分類號(hào): | G10L15/00;G10L15/06;G10L15/32 |
| 代理公司: | 工業(yè)和信息化部電子專利中心 11010 | 代理人: | 李勤媛 |
| 地址: | 100029*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 語(yǔ)種 訓(xùn)練 數(shù)據(jù) 獲得 方法 裝置 | ||
本發(fā)明提供一種語(yǔ)種訓(xùn)練數(shù)據(jù)獲得方法及裝置,用以解決相關(guān)技術(shù)中語(yǔ)種訓(xùn)練數(shù)據(jù)質(zhì)量較低的問(wèn)題。該方法包括:訓(xùn)練用于識(shí)別各種語(yǔ)種的語(yǔ)種識(shí)別模型;使用各語(yǔ)種識(shí)別模型識(shí)別數(shù)據(jù)集中的第二音頻數(shù)據(jù),獲得與各語(yǔ)種識(shí)別模型對(duì)應(yīng)的得分;確定第二音頻數(shù)據(jù)對(duì)應(yīng)的識(shí)別語(yǔ)種;計(jì)算數(shù)據(jù)集中各條第二音頻數(shù)據(jù)的得分信息熵;將所述數(shù)據(jù)集中,得分信息熵滿足第一預(yù)設(shè)條件且實(shí)際語(yǔ)種與識(shí)別語(yǔ)種一致的第二音頻數(shù)據(jù)的集合作為訓(xùn)練數(shù)據(jù)集,訓(xùn)練數(shù)據(jù)集中的第二音頻數(shù)據(jù)用于訓(xùn)練所述語(yǔ)種識(shí)別模型,返回執(zhí)行所述使用訓(xùn)練數(shù)據(jù)訓(xùn)練用于識(shí)別語(yǔ)種的各語(yǔ)種識(shí)別模型的步驟,直至獲得的所述訓(xùn)練數(shù)據(jù)集中的音頻數(shù)據(jù)的數(shù)量滿足第二預(yù)設(shè)條件。本發(fā)明提高了語(yǔ)種訓(xùn)練數(shù)據(jù)的質(zhì)量。
技術(shù)領(lǐng)域
本發(fā)明涉及語(yǔ)音信號(hào)處理技術(shù)領(lǐng)域,尤其涉及一種語(yǔ)種訓(xùn)練數(shù)據(jù)獲得方法及裝置。
背景技術(shù)
語(yǔ)種識(shí)別模型的質(zhì)量取決于用于訓(xùn)練該模型的訓(xùn)練數(shù)據(jù)的質(zhì)量,然而一般情況下,訓(xùn)練數(shù)據(jù)中總會(huì)有一些標(biāo)注錯(cuò)誤的情況,這些數(shù)據(jù)的存在會(huì)使得訓(xùn)練得到的語(yǔ)種識(shí)別模型的描述能力較差,最終影響語(yǔ)種識(shí)別模型的識(shí)別性能。故如何將這些數(shù)據(jù)篩除變得非常重要。目前,語(yǔ)種訓(xùn)練數(shù)據(jù)的選擇主要依靠人工檢查,將標(biāo)注好的訓(xùn)練數(shù)據(jù)進(jìn)行抽檢,發(fā)現(xiàn)標(biāo)注錯(cuò)誤率較大時(shí),則重新對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行標(biāo)注。這種方式費(fèi)時(shí)費(fèi)力,在數(shù)據(jù)量較大時(shí),不可避免的會(huì)殘留一些錯(cuò)誤。
發(fā)明內(nèi)容
本發(fā)明的主要目的在于提供一種語(yǔ)種訓(xùn)練數(shù)據(jù)獲得方法及裝置,以解決相關(guān)技術(shù)中用于訓(xùn)練語(yǔ)種識(shí)別模型的訓(xùn)練數(shù)據(jù)質(zhì)量較低的問(wèn)題。
根據(jù)本公開(kāi)的第一個(gè)方面,提供了一種語(yǔ)種訓(xùn)練數(shù)據(jù)獲得方法,包括:使用訓(xùn)練數(shù)據(jù)分別訓(xùn)練用于識(shí)別各種語(yǔ)種的語(yǔ)種識(shí)別模型,其中,所述訓(xùn)練數(shù)據(jù)中包括各種語(yǔ)種的第一音頻數(shù)據(jù);分別使用所述各語(yǔ)種識(shí)別模型識(shí)別數(shù)據(jù)集中的第二音頻數(shù)據(jù),所述第二音頻數(shù)據(jù)預(yù)先標(biāo)注有其所屬語(yǔ)種,獲得與各所述語(yǔ)種識(shí)別模型對(duì)應(yīng)的得分;根據(jù)所述得分基于各所述語(yǔ)種識(shí)別模型確定出所述第二音頻數(shù)據(jù)對(duì)應(yīng)的識(shí)別語(yǔ)種;計(jì)算所述數(shù)據(jù)集中各條第二音頻數(shù)據(jù)的得分信息熵;將所述數(shù)據(jù)集中,所述得分信息熵滿足第一預(yù)設(shè)條件且實(shí)際語(yǔ)種與所述識(shí)別語(yǔ)種一致的第二音頻數(shù)據(jù)的集合作為訓(xùn)練數(shù)據(jù)集,所述訓(xùn)練數(shù)據(jù)集中的第二音頻數(shù)據(jù)用于訓(xùn)練所述語(yǔ)種識(shí)別模型,返回執(zhí)行所述使用訓(xùn)練數(shù)據(jù)訓(xùn)練用于識(shí)別語(yǔ)種的各語(yǔ)種識(shí)別模型的步驟,直至獲得的所述訓(xùn)練數(shù)據(jù)集中的音頻數(shù)據(jù)的數(shù)量滿足第二預(yù)設(shè)條件。
可選地,所述計(jì)算所述數(shù)據(jù)集中各條第二音頻數(shù)據(jù)的得分信息熵,包括:使用如下公式對(duì)使用各所述語(yǔ)種識(shí)別模型識(shí)別所述第二音頻數(shù)據(jù)得到的分?jǐn)?shù)進(jìn)行歸一化;其中,I為所述語(yǔ)種識(shí)別模型的總個(gè)數(shù),為第i個(gè)語(yǔ)種識(shí)別模型,的上標(biāo)(0)表示迭代次數(shù),表示使用第i個(gè)語(yǔ)種識(shí)別模型識(shí)別所述數(shù)據(jù)集中第j條第二音頻數(shù)據(jù)的得分;
使用如下公式計(jì)算所述得分信息熵;其中,H(j)表示所述數(shù)據(jù)集中第j條第二音頻數(shù)據(jù)對(duì)應(yīng)的得分信息熵。
可選地,所述第一預(yù)設(shè)條件,包括:H(j)≤κlog I,其中,H(j)表示所述數(shù)據(jù)集中第j條第二音頻數(shù)據(jù)對(duì)應(yīng)的得分信息熵,κ為預(yù)設(shè)常數(shù),I為所述語(yǔ)種識(shí)別模型的總個(gè)數(shù)。
可選地,所述第二預(yù)設(shè)條件包括,當(dāng)前得到的所述訓(xùn)練數(shù)據(jù)的數(shù)量與上一次得到的所述訓(xùn)練數(shù)據(jù)的數(shù)量一致。
可選地,所述根據(jù)所述得分基于各所述語(yǔ)種識(shí)別模型確定出所述第二音頻數(shù)據(jù)對(duì)應(yīng)的識(shí)別語(yǔ)種,包括:選擇各所述語(yǔ)種識(shí)別模型對(duì)所述第二音頻數(shù)據(jù)進(jìn)行識(shí)別得到的得分中,得分最高的分?jǐn)?shù)對(duì)應(yīng)的語(yǔ)種作為所述第二音頻數(shù)據(jù)的識(shí)別語(yǔ)種。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于國(guó)家計(jì)算機(jī)網(wǎng)絡(luò)與信息安全管理中心;清華大學(xué),未經(jīng)國(guó)家計(jì)算機(jī)網(wǎng)絡(luò)與信息安全管理中心;清華大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910015434.1/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 支持多語(yǔ)種接口的電子裝置及方法
- 一種模塊化語(yǔ)種解析裝置及其實(shí)現(xiàn)方法
- 一種終端語(yǔ)種的配置方法及裝置
- 一種多語(yǔ)種文字歸碼轉(zhuǎn)傳裝置及方法
- 一種語(yǔ)種識(shí)別方法、裝置、翻譯機(jī)、介質(zhì)和設(shè)備
- 自動(dòng)識(shí)別語(yǔ)種的翻譯方法、裝置及設(shè)備
- 一種語(yǔ)種識(shí)別模型訓(xùn)練、語(yǔ)種識(shí)別的方法和相關(guān)裝置
- 語(yǔ)種識(shí)別方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)
- 語(yǔ)種識(shí)別方法
- 人機(jī)對(duì)話方法、裝置、計(jì)算機(jī)設(shè)備及可讀存儲(chǔ)介質(zhì)
- 等級(jí)精細(xì)視力訓(xùn)練表
- 視覺(jué)盲點(diǎn)演示與旁中心注視訓(xùn)練儀
- 一種訓(xùn)練室
- 視覺(jué)盲點(diǎn)演示與旁中心注視訓(xùn)練儀
- 一種訓(xùn)練室
- 康復(fù)訓(xùn)練器及其定量訓(xùn)練方法和定量訓(xùn)練裝置
- 一種分布式訓(xùn)練中梯度同步方法及裝置
- 訓(xùn)練模型的訓(xùn)練時(shí)長(zhǎng)預(yù)測(cè)方法及裝置
- 一種模型訓(xùn)練方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種計(jì)算機(jī)輔助的自閉癥兒童情感社交康復(fù)訓(xùn)練系統(tǒng)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





