[發(fā)明專利]一種長篇幅語音全自動切分方法有效
| 申請?zhí)枺?/td> | 201310280159.9 | 申請日: | 2013-07-05 |
| 公開(公告)號: | CN103345922A | 公開(公告)日: | 2013-10-09 |
| 發(fā)明(設計)人: | 張巍;王永遠;張志楠 | 申請(專利權)人: | 張巍 |
| 主分類號: | G10L15/04 | 分類號: | G10L15/04 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 266100 山東省青島市中*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 篇幅 語音 全自動 切分 方法 | ||
1.一種長篇幅語音全自動切分方法,其特征在于,包括以下步驟:
(1)先由ZLSS方法提供精確的標注句點的時間數(shù)據(jù),再由HashMap追蹤查找機制按照時間軸的對應關系,將其和MLSS算法的輸入對應;
(2)由邊界特征抽取程序,利用上述已經(jīng)對應的好的時間數(shù)據(jù),將對應的數(shù)據(jù)幀特征從原始文件中抽取出來,為做Co_training的分類迭代做準備;
(3)將上面抽取得來的正確句點位置的邊界特征信息加入MLSS的訓練集,做Co_training,進一步分類得到新的句點;
(4)分類結果只給出了對應句點位置的起始幀和結束幀,還要進一步經(jīng)過轉換程序,將其對應到與ZLSS一致的時間軸上來,再轉到下一步驟操作;
(5)做一次判斷,看是否本次的迭代過程找到了新的句點,如沒有找到,則整個迭代過程結束,若找到了新的句點,則進行下一步;
(6)得到轉換程序輸出的時間點信息之后,再利用ZLSS提供的切分方法,將當前篇幅語音和文本進一步切分成更小更多的段落或句子,并將結果替換上一次迭代的初始語音和文本集;
(7)重復執(zhí)行以上步驟。
2.根據(jù)權利要求1所述的長篇幅語音全自動切分方法,其特征在于,采用基于HashMap的追蹤查找機制,將找到的所有正確的句子時間信息統(tǒng)一對應到初始的時間軸上,為下一步迭代分類做準備。
3.根據(jù)權利要求1所述的長篇幅語音全自動切分方法,其特征在于,所述ZLSS方法將句子邊界的靜音看成一個獨立音素sil,首先,通過基于HMM的無監(jiān)督方法和Flat-start訓練算法,訓練語音中各個音素的隱馬爾科夫模型,并通過Viterbi強制對齊forced-alignment將篇幅的音素序列和篇幅文本對齊,然后,根據(jù)文本中句子結束符號,最后,通過一個嚴格的檢查機制,來判斷切分句子是否正確,進而就能夠得到一個較小的正確的邊界標注集合。
4.根據(jù)權利要求1所述的長篇幅語音全自動切分方法,其特征在于,所述ZLSS方法引入迭代算法:首先,根據(jù)上文檢查機制給出的正確無誤的sil將篇幅語音切分為段落語音和句子語音;然后,判斷當前得到的句子和段落的總數(shù)目相對于上一次迭代過程所得到的結果有無增加,也就是判斷是否有新的正確的sil被找到,如果有增加,用這一次的結果語音和文本再與前一次的結果語音和文本進行替換,重新訓練HMMs,繼續(xù)迭代;如果沒有增加,那么意味著迭代過程結束。
5.根據(jù)權利要求1所述的長篇幅語音全自動切分方法,其特征在于,還包括自動擴充精確標注集合:
首先,采用韻律特征,研究對音頻幀-段Frame-Clip進行元音/輔音/停頓V/C/P的分類;然后,根據(jù)Co_training和Active?Learning架構,實現(xiàn)了極小化標注的句子邊界探測,在停頓中尋找句子邊界;最后,研究韻律特征的嚴格檢錯機制,確定準確的句子邊界。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于張巍,未經(jīng)張巍許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310280159.9/1.html,轉載請聲明來源鉆瓜專利網(wǎng)。





