[發明專利]一種視聽字幕制作系統及方法有效
| 申請號: | 201210389708.1 | 申請日: | 2012-10-15 |
| 公開(公告)號: | CN102937972A | 公開(公告)日: | 2013-02-20 |
| 發明(設計)人: | 張云梯;莊智象;黃衛;黃河;張中良 | 申請(專利權)人: | 上海外教社信息技術有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G10L15/26;G10L15/14 |
| 代理公司: | 上海百一領御專利代理事務所(普通合伙) 31243 | 代理人: | 馬育麟 |
| 地址: | 200083 上海市虹*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 視聽 字幕 制作 系統 方法 | ||
1.一種視聽字幕制作系統,其特征在于,所述系統包括:
原始文本處理模塊,用于將輸入的原始文本分詞后按指定規則分割為合適長度的句子或短語,并將所述句子或短語發送到注音模塊;
注音模塊,用于處理所述句子或短語中的非登錄詞,然后通過查注音詞典生成注音網絡,并將所述注音網絡發送到強制切分模塊;?
原始聲音處理模塊,用于將輸入的原始聲音處理成預定要求的聲音流,并將所述聲音流發送到強制切分模塊;
強制切分模塊,用于將所述注音網絡切分為隱含馬爾科夫識別語音的對齊網絡,然后將所述聲音流提取為特征流并在所述對齊網絡對齊,并將切分結果輸入到切分可信度評估模塊;?
切分可信度評估模塊,用于通過語音識別對所述切分結果中每個切分段進行可信度評估得到切分可信度評估結果,若所述切分可信度評估結果達到預定值,則將所述切分結果直接發送到字幕生成模塊,否則將所述切分可信度評估結果發送到錯誤處理模塊;
錯誤處理模塊,用于顯示所述切分可信度評估結果,判斷是所述原始文本有誤還是所述切分結果需要人工微調,若所述切分結果需要人工微調則人工微調所述切分結果并發送到字幕生成模塊,若是所述原始文本有誤則人工修改原始文本后重新交由所述原始文本處理模塊切分;
字幕生成模塊,用于結合預定的字幕文件格式,將所述切分結果輸出字幕文件。
2.根據權利要求1所述的視聽字幕制作系統,其特征在于,所述原始文本處理模塊還包括:
分詞子模塊,用于將所述原始文本用雙數組Trie樹分詞算法分成含有若干個詞的詞語流;
文本切分子模塊,用于將所述詞語流自動切分成長度合適的句子或短語,具體切分方法為:從前向后遍歷所述詞語流,依據句子邊界符號將所述詞語流切分成句子流;從前向后遍歷每個句子,若所述句子的長度大于預定值,則依次嘗試從逗號、從句、連接詞或任意詞處分開所述句子,直到所述句子的長度小于或等于所述預定值。
3.根據權利要求1所述的視聽字幕制作系統,其特征在于,所述強制切分模塊還包括:
聲學網絡生成子模塊,用于將所述注音網絡展開,并在詞語間加入啞音,擴充為隱馬爾科夫聲學模型的聲學網絡,發送到隱藏狀態序列搜索模塊中;
特征提取子模塊,用于將從所述聲音流中逐幀提取音頻,經過加窗處理后提取符合隱馬爾科夫聲學模型的聲學參數,生成逐幀的所述特征流,發送到隱藏狀態序列搜索模塊中;
隱藏狀態序列搜索子模塊,用于將所述特征流與所述聲學網絡通過維特比算法進行對齊,并選取所述特征流所經過的聲學網絡節點為所搜索的隱藏狀態序列,將隱藏狀態序列搜索結果發送到切分結果生成模塊;
切分結果生成子模塊,用于從所述隱藏狀態序列搜索結果中求出每個切分好的句子的起止位置Sn和En。
4.根據權利要求3所述的視聽字幕制作系統,其特征在于,所述句子的起止位置Sn和En通過以下公式得到:
Sn=?(An+Bn-1)/2*?FD,En?=?(Bn+An+1)?/2*FD;
其中,所述Sn和En的計算公式中An、Bn為分別表示第n個切分后的句子的一個隱藏狀態序列的序號和最后一個隱藏狀態序列的序號,并令B0?=A1、AN+1=BN(N為切分后的句子個數),FD為特征提取子模塊所用音頻幀的時長。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海外教社信息技術有限公司,未經上海外教社信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210389708.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種網頁搜索設備和方法
- 下一篇:一種多節點固件升級方法和裝置





