[發(fā)明專利]訓(xùn)練集生成方法、裝置、電子設(shè)備和計(jì)算機(jī)可讀介質(zhì)在審
| 申請(qǐng)?zhí)枺?/td> | 202110077731.6 | 申請(qǐng)日: | 2021-01-20 |
| 公開(kāi)(公告)號(hào): | CN113781994A | 公開(kāi)(公告)日: | 2021-12-10 |
| 發(fā)明(設(shè)計(jì))人: | 宋偉;張政臣 | 申請(qǐng)(專利權(quán))人: | 北京沃東天駿信息技術(shù)有限公司;北京京東世紀(jì)貿(mào)易有限公司 |
| 主分類號(hào): | G10L13/02 | 分類號(hào): | G10L13/02;G10L13/04;G10L13/08 |
| 代理公司: | 北京唯智勤實(shí)知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11557 | 代理人: | 陳佳 |
| 地址: | 101116 北京市大興區(qū)北京經(jīng)濟(jì)*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 訓(xùn)練 生成 方法 裝置 電子設(shè)備 計(jì)算機(jī) 可讀 介質(zhì) | ||
1.一種訓(xùn)練集生成方法,包括:
獲取數(shù)據(jù)集,其中,所述數(shù)據(jù)集包括文本集和與所述文本集相關(guān)聯(lián)的語(yǔ)音集;
確定所述文本集中是否存在與所述語(yǔ)音集中對(duì)應(yīng)語(yǔ)音未對(duì)齊的文本;
響應(yīng)于所述文本集中存在與對(duì)應(yīng)語(yǔ)音未對(duì)齊的文本,從所述數(shù)據(jù)集去除文本和對(duì)應(yīng)語(yǔ)音未對(duì)齊的至少一個(gè)數(shù)據(jù),得到去除后的數(shù)據(jù)集作為目標(biāo)數(shù)據(jù)集;
根據(jù)所述目標(biāo)數(shù)據(jù)集,確定文本與語(yǔ)音模型的訓(xùn)練集。
2.根據(jù)權(quán)利要求1所述的方法,其中,所述確定所述文本集中是否存在與所述語(yǔ)音集中對(duì)應(yīng)語(yǔ)音未對(duì)齊的文本,包括:
提取所述文本集中每個(gè)文本對(duì)應(yīng)的音素序列,得到音素序列組;
將所述文本集中每個(gè)文本對(duì)應(yīng)的音素序列和對(duì)應(yīng)語(yǔ)音輸入至預(yù)先訓(xùn)練的隱馬爾可夫模型以輸出表征所述每個(gè)文本與對(duì)應(yīng)語(yǔ)音是否對(duì)齊的信息作為第一信息,得到第一信息集;
根據(jù)所述每個(gè)文本的音素序列和對(duì)應(yīng)語(yǔ)音,利用動(dòng)態(tài)時(shí)間規(guī)整算法,生成表征所述文本集中每個(gè)文本與對(duì)應(yīng)語(yǔ)音是否對(duì)齊的信息作為第二信息,得到第二信息集;
根據(jù)所述第一信息集和所述第二信息集,確定所述文本集中是否存在與所述語(yǔ)音集中對(duì)應(yīng)語(yǔ)音未對(duì)齊的文本。
3.根據(jù)權(quán)利要求2所述的方法,其中,所述響應(yīng)于所述文本集中存在與對(duì)應(yīng)語(yǔ)音未對(duì)齊的文本,從所述數(shù)據(jù)集去除文本和對(duì)應(yīng)語(yǔ)音未對(duì)齊的至少一個(gè)數(shù)據(jù),得到去除后的數(shù)據(jù)集作為目標(biāo)數(shù)據(jù)集,包括:
響應(yīng)于所述文本集中存在與對(duì)應(yīng)語(yǔ)音未對(duì)齊的文本,根據(jù)所述第一信息集和所述第二信息集,確定所述文本集中與對(duì)應(yīng)語(yǔ)音未對(duì)齊的至少要一個(gè)文本作為目標(biāo)文本集;
從所述數(shù)據(jù)集去除與所述目標(biāo)文本集相關(guān)聯(lián)的至少一個(gè)數(shù)據(jù),得到所述目標(biāo)數(shù)據(jù)集。
4.根據(jù)權(quán)利要求3所述的方法,其中,所述響應(yīng)于所述文本集中存在與對(duì)應(yīng)語(yǔ)音未對(duì)齊的文本,根據(jù)所述第一信息集和所述第二信息集,確定所述文本集中與對(duì)應(yīng)語(yǔ)音未對(duì)齊的至少要一個(gè)文本作為目標(biāo)文本集,包括:
響應(yīng)于所述文本集中存在與對(duì)應(yīng)語(yǔ)音未對(duì)齊的文本,從所述第一信息集中選擇表征文本與對(duì)應(yīng)語(yǔ)音未對(duì)齊的第一信息作為第一目標(biāo)信息,得到第一目標(biāo)信息集;
從所述第二信息集中選擇表征文本與對(duì)應(yīng)語(yǔ)音未對(duì)齊的第二信息作為第二目標(biāo)信息,得到第二目標(biāo)信息集;
確定所述第一目標(biāo)信息集對(duì)應(yīng)的文本集與所述第二目標(biāo)信息集對(duì)應(yīng)的文本集中相同的至少一個(gè)文本作為所述目標(biāo)文本集。
5.根據(jù)權(quán)利要求1所述的方法,其中,所述根據(jù)所述目標(biāo)數(shù)據(jù)集,確定文本與語(yǔ)音模型的訓(xùn)練集,包括:
根據(jù)所述目標(biāo)數(shù)據(jù)集,接收相關(guān)終端傳入的、修正后的數(shù)據(jù)集,其中,所述修正后的數(shù)據(jù)集是對(duì)所述目標(biāo)數(shù)據(jù)集進(jìn)行修正而得到的數(shù)據(jù)集;
將所述數(shù)據(jù)集中目標(biāo)數(shù)據(jù)集替換為所述修正后的數(shù)據(jù)集,得到替換后的數(shù)據(jù)集作為所述文本與語(yǔ)音模型的訓(xùn)練集。
6.根據(jù)權(quán)利要求2所述的方法,其中,所述隱馬爾可夫模型是根據(jù)強(qiáng)制對(duì)齊方法來(lái)訓(xùn)練的。
7.一種訓(xùn)練集生成裝置,包括:
獲取單元,被配置成獲取數(shù)據(jù)集,其中,所述數(shù)據(jù)集包括文本集和與所述文本集相關(guān)聯(lián)的語(yǔ)音集;
第一確定單元,被配置成確定所述文本集中是否存在與所述語(yǔ)音集中對(duì)應(yīng)語(yǔ)音未對(duì)齊的文本;
去除單元,被配置成響應(yīng)于所述文本集中存在與對(duì)應(yīng)語(yǔ)音未對(duì)齊的文本,從所述數(shù)據(jù)集去除文本和對(duì)應(yīng)語(yǔ)音未對(duì)齊的至少一個(gè)數(shù)據(jù),得到去除后的數(shù)據(jù)集作為目標(biāo)數(shù)據(jù)集;
第二確定單元,被配置成根據(jù)所述目標(biāo)數(shù)據(jù)集,確定文本與語(yǔ)音模型的訓(xùn)練集。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京沃東天駿信息技術(shù)有限公司;北京京東世紀(jì)貿(mào)易有限公司,未經(jīng)北京沃東天駿信息技術(shù)有限公司;北京京東世紀(jì)貿(mào)易有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110077731.6/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G10L 語(yǔ)音分析或合成;語(yǔ)音識(shí)別;音頻分析或處理
G10L13-00 語(yǔ)音合成;文本-語(yǔ)音合成系統(tǒng)
G10L13-02 .產(chǎn)生合成語(yǔ)音的方法;語(yǔ)音合成設(shè)備
G10L13-06 .語(yǔ)音合成設(shè)備中使用的基本語(yǔ)音單位;級(jí)聯(lián)規(guī)則
G10L13-08 .文本分析或文本以外的語(yǔ)音合成參數(shù)的產(chǎn)生,例如語(yǔ)義圖翻譯為音素、韻律產(chǎn)生、重音或聲調(diào)測(cè)定
G10L13-04 ..語(yǔ)音合成系統(tǒng)的零部件,例如合成設(shè)備結(jié)構(gòu)或存儲(chǔ)器管理
- 等級(jí)精細(xì)視力訓(xùn)練表
- 視覺(jué)盲點(diǎn)演示與旁中心注視訓(xùn)練儀
- 一種訓(xùn)練室
- 視覺(jué)盲點(diǎn)演示與旁中心注視訓(xùn)練儀
- 一種訓(xùn)練室
- 康復(fù)訓(xùn)練器及其定量訓(xùn)練方法和定量訓(xùn)練裝置
- 一種分布式訓(xùn)練中梯度同步方法及裝置
- 訓(xùn)練模型的訓(xùn)練時(shí)長(zhǎng)預(yù)測(cè)方法及裝置
- 一種模型訓(xùn)練方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種計(jì)算機(jī)輔助的自閉癥兒童情感社交康復(fù)訓(xùn)練系統(tǒng)
- 一種數(shù)據(jù)庫(kù)讀寫(xiě)分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





