[發(fā)明專利]文字文件自動(dòng)標(biāo)示時(shí)間的裝置與方法無效
| 申請(qǐng)?zhí)枺?/td> | 200710088627.7 | 申請(qǐng)日: | 2007-03-16 |
| 公開(公告)號(hào): | CN101266790A | 公開(公告)日: | 2008-09-17 |
| 發(fā)明(設(shè)計(jì))人: | 顏銘祥;顏睿余;趙平峽 | 申請(qǐng)(專利權(quán))人: | 微星科技股份有限公司 |
| 主分類號(hào): | G10L13/04 | 分類號(hào): | G10L13/04;G11B27/10 |
| 代理公司: | 隆天國(guó)際知識(shí)產(chǎn)權(quán)代理有限公司 | 代理人: | 郭曉東 |
| 地址: | 中國(guó)臺(tái)*** | 國(guó)省代碼: | 中國(guó)臺(tái)灣;71 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 文字 文件 自動(dòng) 標(biāo)示 時(shí)間 裝置 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及一種文字文件標(biāo)示時(shí)間的裝置與方法,尤其涉及一種通過語音辨識(shí)進(jìn)行文字文件自動(dòng)標(biāo)示時(shí)間的裝置與方法。
背景技術(shù)
不論是語言學(xué)習(xí)機(jī)或是語音播放器(例如,MP3?player),目前大部分的設(shè)備都具有詞曲同步的功能。也就是當(dāng)使用者在聽取語言朗讀或歌曲播放時(shí),會(huì)有相對(duì)應(yīng)的文字(朗讀內(nèi)容或歌詞),跟隨著語音文件一同播放。以便讓使用者能一邊聆聽語音文件,一邊讀取和語音文件互相對(duì)應(yīng)的文字。如此,當(dāng)使用者利用具有詞曲同步功能的設(shè)備學(xué)習(xí)語言或聆聽歌曲時(shí),可以增加語言學(xué)習(xí)的效率或加速歌曲學(xué)習(xí)的效率。
目前常見的詞曲同步的文件為L(zhǎng)RC文件,而所謂LRC文件的格式簡(jiǎn)單來說就是時(shí)間信息后面跟隨著一段文字信息。其中,時(shí)間信息所代表的意義就是這段文字信息在語音文件內(nèi)的起始時(shí)間。所以,只要從語音文件的這個(gè)時(shí)間開始播放,也就可以聽到與這段文字信息相對(duì)應(yīng)的語音內(nèi)容。也因?yàn)橛蓄愃芁RC這種格式的文件出現(xiàn),市面上才會(huì)產(chǎn)生許多具有詞曲同步功能的產(chǎn)品或軟件。
但以目前的技術(shù)來看,LRC文件的制作大部分是以人工制作的方式來完成。也就是根據(jù)文字和語音文件的內(nèi)容來進(jìn)行文句所對(duì)應(yīng)的時(shí)間標(biāo)示。簡(jiǎn)單來說,就是將文字部分所對(duì)應(yīng)到語音文件的時(shí)間,利用人工的方法逐句標(biāo)示出來。如此,將造成大量的時(shí)間與人力的浪費(fèi)。
例如,中國(guó)臺(tái)灣申請(qǐng)專利第92117564號(hào)“伴唱歌詞的編輯系統(tǒng)及其編輯與顯示的方法”。該專利提供應(yīng)用于計(jì)算機(jī)可執(zhí)行接口上,通過使用者編輯伴唱音樂旋律相對(duì)應(yīng)的歌詞,并且定義每段歌曲的起始時(shí)間用于顯示時(shí),能夠精確的依據(jù)歌曲時(shí)長(zhǎng)顯示并且變化相對(duì)應(yīng)字符呈現(xiàn),讓使用者能夠輕易的跟唱。其所公開的技術(shù)便是需要通過使用者編輯伴唱音樂旋律相對(duì)應(yīng)之歌詞,也就是采用上述所介紹的人工自行標(biāo)示時(shí)間的方式,來完成伴唱歌曲中文字文件(歌詞)能詞曲同步的功能。
此外目前相關(guān)的研究文獻(xiàn)中,有嘗試將關(guān)鍵詞匯加以整理并將所有關(guān)鍵詞匯結(jié)構(gòu)化,以快速算法來實(shí)現(xiàn)大字匯的關(guān)鍵詞萃取,并對(duì)其辨識(shí)率及辨識(shí)效能作研究。以及,以PDA為平臺(tái)的語音控制系統(tǒng),討論以類神經(jīng)網(wǎng)絡(luò)為主之向量量化過程,對(duì)語音系統(tǒng)辨識(shí)率的影響。使用的方法包括利用數(shù)字信號(hào)處理技術(shù)擷取語音特征參數(shù),向量量化方法作前處理,以及隱馬爾可夫模型為主的辨識(shí)及訓(xùn)練算法。
上述所提及的文獻(xiàn),主要的研究?jī)?nèi)容著重在語音辨識(shí)的技巧上。無法達(dá)到將語音文件相對(duì)應(yīng)的文字文件自動(dòng)標(biāo)示時(shí)間的功能。因此,如何讓文字文件可以自動(dòng)標(biāo)示時(shí)間,而節(jié)省人工標(biāo)示時(shí)間所花費(fèi)的時(shí)間與金錢,為一亟待解決的問題。
發(fā)明內(nèi)容
有鑒于此本發(fā)明提出一種文字文件自動(dòng)標(biāo)示時(shí)間的裝置與方法,通過語音辨識(shí)進(jìn)行文字文件自動(dòng)標(biāo)示時(shí)間。利用本發(fā)明可將文字文件中的每一個(gè)句子自動(dòng)標(biāo)示出對(duì)應(yīng)于語音文件的時(shí)間。因此,不需再像傳統(tǒng)技術(shù)一樣,利用人工的方式逐句標(biāo)示文字文件對(duì)應(yīng)到語音文件的時(shí)間。如此,將大幅節(jié)省時(shí)間與人力的花費(fèi)。
本發(fā)明所提出之一種文字文件自動(dòng)標(biāo)示時(shí)間的裝置包含:接收模塊、語音辨識(shí)模塊及標(biāo)示模塊。
接收模塊接收文字文件與語音文件。其中,文字文件由多個(gè)句子所組成。語音辨識(shí)模塊將文字文件中的句子轉(zhuǎn)換為語音模型,并依據(jù)間隔時(shí)間將語音文件劃分為多個(gè)幀(frame)且依序編號(hào),計(jì)算出幀與語音模型互相匹配(match)的最佳語音路徑。標(biāo)示模塊依據(jù)最佳語音路徑擷取出每一句子的開頭所對(duì)應(yīng)的幀的編號(hào),由幀的編號(hào)與間隔時(shí)間取得每一句子的開頭對(duì)應(yīng)于語音文件的起始時(shí)間,并標(biāo)示起始時(shí)間于文字文件。
本發(fā)明提出一種文字文件自動(dòng)標(biāo)示時(shí)間的方法,通過語音辨識(shí)進(jìn)行文字文件自動(dòng)標(biāo)示時(shí)間,包含下列步驟。接收文字文件與語音文件,而該文字文件由多個(gè)句子所組成。轉(zhuǎn)換文字文件中的句子為語音模型。依據(jù)間隔時(shí)間將語音文件劃分為多個(gè)幀(frame)且依序編號(hào)。計(jì)算出幀與語音模型互相匹配(match)的最佳語音路徑。依據(jù)最佳語音路徑擷取出每一句子的開頭所對(duì)應(yīng)的幀的編號(hào)。依據(jù)幀的編號(hào)與間隔時(shí)間取得每一句子的開頭對(duì)應(yīng)于語音文件的起始時(shí)間。最后,標(biāo)示起始時(shí)間于文字文件。
通過本發(fā)明的方法可將文字文件中的每一個(gè)句子自動(dòng)標(biāo)示出對(duì)應(yīng)于語音文件的起始時(shí)間,不需再如傳統(tǒng)技術(shù)一樣利用人工的方式逐句標(biāo)示時(shí)間,進(jìn)而節(jié)省大量的時(shí)間與人力的花費(fèi)。
有關(guān)本發(fā)明的較佳實(shí)施例及其功效,配合附圖說明如后。
附圖說明
圖1為本發(fā)明文字文件自動(dòng)標(biāo)示時(shí)間的裝置的示意圖。
圖2為語音辨識(shí)模塊的示意圖。
圖3為最佳語音路徑示意圖。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于微星科技股份有限公司,未經(jīng)微星科技股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200710088627.7/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G10L 語音分析或合成;語音識(shí)別;音頻分析或處理
G10L13-00 語音合成;文本-語音合成系統(tǒng)
G10L13-02 .產(chǎn)生合成語音的方法;語音合成設(shè)備
G10L13-06 .語音合成設(shè)備中使用的基本語音單位;級(jí)聯(lián)規(guī)則
G10L13-08 .文本分析或文本以外的語音合成參數(shù)的產(chǎn)生,例如語義圖翻譯為音素、韻律產(chǎn)生、重音或聲調(diào)測(cè)定
G10L13-04 ..語音合成系統(tǒng)的零部件,例如合成設(shè)備結(jié)構(gòu)或存儲(chǔ)器管理





