[發(fā)明專利]一種長(zhǎng)篇幅語音全自動(dòng)切分方法有效
| 申請(qǐng)?zhí)枺?/td> | 201310280159.9 | 申請(qǐng)日: | 2013-07-05 |
| 公開(公告)號(hào): | CN103345922A | 公開(公告)日: | 2013-10-09 |
| 發(fā)明(設(shè)計(jì))人: | 張巍;王永遠(yuǎn);張志楠 | 申請(qǐng)(專利權(quán))人: | 張巍 |
| 主分類號(hào): | G10L15/04 | 分類號(hào): | G10L15/04 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 266100 山東省青島市中*** | 國(guó)省代碼: | 山東;37 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 篇幅 語音 全自動(dòng) 切分 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明屬于語音合成、語音識(shí)別、語音檢索和標(biāo)注技術(shù)領(lǐng)域,涉及一種長(zhǎng)篇幅語音全自動(dòng)切分方法。
背景技術(shù)
目前世界上主流的語音合成方法有兩種,一種是基于HMM的可訓(xùn)練(Trainable?TTS)語音合成的方法,比如美國(guó)卡內(nèi)基梅隆大學(xué)(CMU)的CLUSTERGEN,日本名古屋工業(yè)大學(xué)開發(fā)的HTS語音合成引擎,它們都是采用一種基于參數(shù)統(tǒng)計(jì)(Parametric?Statistical)合成的方法;另一種是基于大語音語料庫的語音合成方法(corpus-based?TTS(text?to?speech)),例如,中國(guó)科學(xué)院聲學(xué)所的KX-PSOLA(1993),和訊飛在針對(duì)電信平臺(tái)上所采用的語音合成技術(shù),這些都是采用基于單元(unit?selection)挑選和波形拼接的技術(shù)來進(jìn)行語音的合成]。以上兩種語音合成技術(shù)的核心都是建立在已經(jīng)具備標(biāo)注好了的,高準(zhǔn)確度的語音語料庫的基礎(chǔ)之上。現(xiàn)行構(gòu)建語音庫(語音Corpus)一般是對(duì)大段文本逐句錄音,然后進(jìn)行逐句人工標(biāo)注:因?yàn)閱我痪渥愉浺舻拈_頭和結(jié)尾的語音單元往往不同于句中單元,根據(jù)Viterbi算法將語音單元強(qiáng)制對(duì)齊到給定標(biāo)注(Transcript,由文本直接轉(zhuǎn)換而來),因此需要人工再進(jìn)行邊界調(diào)整。圖1給出了傳統(tǒng)構(gòu)建語音語料庫的一般步驟。這種構(gòu)建語音語料庫的方法主觀性強(qiáng),人工標(biāo)注缺乏一致性,而且花費(fèi)大量的成本和時(shí)間。同時(shí),單句錄制不可避免的會(huì)丟失語言中所蘊(yùn)含的豐富的韻律特征以及上下文信息。這些韻律和上下文信息是文字所難以傳遞的,它對(duì)語音理解,對(duì)語氣等語用意義,對(duì)提示語音結(jié)構(gòu),說話人的情感等都有貢獻(xiàn)。要想合成更有表現(xiàn)力的語音,這些信息都是必不可少的重要參數(shù)。
由此看來,單句錄音和人工標(biāo)注是目前語音合成引擎能夠更具表現(xiàn)力的瓶頸所在。從這個(gè)角度上看,如果能夠有一種方法將發(fā)音自然的、含有多個(gè)段落的篇幅語音準(zhǔn)確自動(dòng)地切分成單句(而對(duì)此類單句可以直接進(jìn)行Viterbi強(qiáng)制對(duì)齊,不進(jìn)行人工邊界調(diào)整,因?yàn)槠Z音中的句首、句中和句末語音單元差異較小),找到這種方法是降低語音Corpus構(gòu)建成本,并提升語音合成表現(xiàn)力的關(guān)鍵問題。
在解決句子自動(dòng)切分的問題上,目前的方法多為單純追求句子切分的準(zhǔn)確率和召回率,而需要大量的人工標(biāo)注,或是在此基礎(chǔ)上減少一些標(biāo)注量的方法,這兩類研究這里不再展開贅述。全自動(dòng)的句子切分算法研究的并不多。CMU的Alan?W?Black和Kishore?Prahallad于2011年提出了一種自動(dòng)切分語音書(VoiceBook),然后再構(gòu)建語音合成引擎的方法。無標(biāo)注的句子自動(dòng)切分算法單純從語音的頻譜參數(shù)上去做句子的切分的研究,這樣雖然具備無標(biāo)注的特性并且保證了切分得到的結(jié)果有著較高的準(zhǔn)確度,但是浪費(fèi)卻是很大的,只能夠保證40.4%的準(zhǔn)確率。基于半監(jiān)督學(xué)習(xí)的極小化標(biāo)注的句子自動(dòng)切分算法又單單依賴韻律參數(shù)來進(jìn)行句子邊界的探測(cè)以及分類。雖然可以大幅度的降低標(biāo)注量,但是還是不能保證具有較高的準(zhǔn)確度。
發(fā)明內(nèi)容
為了解決上述技術(shù)問題,本發(fā)明提供了一種長(zhǎng)篇幅語音全自動(dòng)切分方法,是一種具有更高準(zhǔn)確度的無標(biāo)注的句子自動(dòng)切分算法,該算法將基于HMM的Force-alignment無監(jiān)督算法和半監(jiān)督學(xué)習(xí)方法相融合,并通過建立一種基于時(shí)間軸的迭代機(jī)制,利用半監(jiān)督學(xué)習(xí)極小化標(biāo)注的句子切分算法對(duì)無標(biāo)注的句子切分算法所提供的少量精確標(biāo)注集進(jìn)行自動(dòng)擴(kuò)充,以達(dá)到最大化精確標(biāo)注集合的目的,進(jìn)而再依據(jù)得到的正確的句點(diǎn)將原始篇幅語音切分成更小的段落或是句子的集合。
其技術(shù)方案如下:
一種長(zhǎng)篇幅語音全自動(dòng)切分方法,包括以下步驟:
(1)先由無標(biāo)注的句子切分系統(tǒng)(Zero-Labeling?Sentence?Segmentation,ZLSS)方法提供精確的標(biāo)注句點(diǎn)的時(shí)間數(shù)據(jù),再由哈希表(HashMap)追蹤查找機(jī)制按照時(shí)間軸的對(duì)應(yīng)關(guān)系,將其和最小化標(biāo)注的句子分類系統(tǒng)(Minimum?Labeling?Sentence?Segmentation,MLSS)算法的輸入對(duì)應(yīng);
(2)由邊界特征抽取程序,利用上述已經(jīng)對(duì)應(yīng)的好的時(shí)間數(shù)據(jù),將對(duì)應(yīng)的數(shù)據(jù)幀特征從原始文件中抽取出來,為做協(xié)同訓(xùn)練(Co_training)的分類迭代做準(zhǔn)備。此處應(yīng)注意的是邊界特征抽取程序嵌入在了MLSS算法中,其抽取的對(duì)象是最初的原始的長(zhǎng)篇幅多段落的音頻段落。對(duì)應(yīng)句子邊界點(diǎn)的時(shí)間信息也是相對(duì)于最初的篇幅語音而言。在執(zhí)行后續(xù)的步驟之前,現(xiàn)有此抽取程序?qū)⑺泻蜻x句子邊界(Sentence?Boundary?Candidate)的特征信息相應(yīng)的抽取出來。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于張巍,未經(jīng)張巍許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310280159.9/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。





