[發明專利]一種視聽字幕制作系統及方法有效
| 申請號: | 201210389708.1 | 申請日: | 2012-10-15 |
| 公開(公告)號: | CN102937972A | 公開(公告)日: | 2013-02-20 |
| 發明(設計)人: | 張云梯;莊智象;黃衛;黃河;張中良 | 申請(專利權)人: | 上海外教社信息技術有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G10L15/26;G10L15/14 |
| 代理公司: | 上海百一領御專利代理事務所(普通合伙) 31243 | 代理人: | 馬育麟 |
| 地址: | 200083 上海市虹*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 視聽 字幕 制作 系統 方法 | ||
技術領域
本發明涉及外語電化教學領域,尤其涉及一種視聽字幕制作系統及方法。
背景技術
語言學習主要通過獲得大量的可理解輸入來實現,而“聽”是獲得可理解語言輸入的最重要的渠道。中國的外語學習者面臨著一個“讀得懂卻聽不懂”的尷尬狀態。基于多媒體技術的視聽輸入教學法,能再現人們真實交際場景,對改進外語教學起到了積極的推動作用。在視聽輸入教學法基礎上,將話語信息以文字的形式(即視聽字幕)同時呈現給受眾,對外語視聽教學更具有顯著的積極意義。
目前,有字幕加配的視聽教學內容少之又少,其主要原因是當前字幕的加配主要是手工完成。專業技術人員需花費大量的時間和精力才能制作完成長度有限的字幕,成本太高而不能大規模應用。
現代語音識別技術領域中,在給定單句文本及其聲音后,可以用基于隱含馬爾科夫模型的核心模塊將音節起止信息在音軸上顯示出來。此方法主要應用于建立音節切分語音語料庫,它要求文本與聲音高度一致,否則就會切分失敗或效果很差。而視聽字幕的制作要求切分的單位是句子或短語,制作中要求方法有很高的容錯性,要能處理文本中含未知發音的未登錄詞、多音詞、含有錯誤文本段落等情況,要能發現指出切分錯誤之處,這些要求在傳統方法中均無法滿足。
發明內容
針對上述的缺陷,本發明的目的在于提供一種視聽字幕制作系統及方法,其能夠在無人工干預或很少人工干預的情況下直接得到高質量的用于外語電化教學的視聽字幕文件。
為了實現上述目的,本發明提供視聽字幕制作系統,所述系統包括:
原始文本處理模塊,用于將輸入的原始文本分詞后按指定規則分割為合適長度的句子或短語,并將所述句子或短語發送到注音模塊;
注音模塊,用于處理所述句子或短語中的非登錄詞,然后通過查注音詞典生成注音網絡,并將所述注音網絡發送到強制切分模塊;?
原始聲音處理模塊,用于將輸入的原始聲音處理成預定要求的聲音流,并將所述聲音流發送到強制切分模塊;
強制切分模塊,用于將所述注音網絡切分為隱含馬爾科夫識別語音的對齊網絡,然后將所述聲音流提取為特征流并在所述對齊網絡對齊,并將切分結果輸入到切分可信度評估模塊;?
切分可信度評估模塊,用于通過語音識別對所述切分結果中每個切分段進行可信度評估得到切分可信度評估結果,若所述切分可信度評估結果達到預定值,則將所述切分結果直接發送到字幕生成模塊,否則將所述切分可信度評估結果發送到錯誤處理模塊;
錯誤處理模塊,用于顯示所述切分可信度評估結果,判斷是所述原始文本有誤還是所述切分結果需要人工微調,若所述切分結果需要人工微調則人工微調所述切分結果并發送到字幕生成模塊,若是所述原始文本有誤則人工修改原始文本后重新交由所述原始文本處理模塊切分;
字幕生成模塊,用于結合預定的字幕文件格式,將所述切分結果輸出字幕文件。
根據本發明所述的視聽字幕制作系統,所述原始文本處理模塊還包括:
分詞子模塊,用于將所述原始文本用雙數組Trie樹分詞算法分成含有若干個詞的詞語流;
文本切分子模塊,用于將所述詞語流自動切分成長度合適的句子或短語,具體切分方法為:從前向后遍歷所述詞語流,依據句子邊界符號將所述詞語流切分成句子流;從前向后遍歷每個句子,若所述句子的長度大于預定值,則依次嘗試從逗號、從句、連接詞或任意詞處分開所述句子,直到所述句子的長度小于或等于所述預定值。
根據本發明所述的視聽字幕制作系統,所述注音模塊還包括:
非登錄詞處理子模塊,用于將切分好的所述句子或短語中含有的不在所述注音詞典中的詞,通過形近詞替換、直接刪除或人工注音方法轉換為已知的讀音的詞;
注音網絡生成子模塊,首先將切分處理非登錄詞后的詞語流中每個詞語首尾相連,建立詞語網絡,再查得每個詞語所有可能的發音展開為注音網絡。
根據本發明所述的視聽字幕制作系統,所述形近詞替換,用于自動選中詞庫中一個最相近的詞w*替換原詞;其中替換詞w*通過以下方法得到:
w*?=?arg?min?c∈C?D(w,c),
公式中w為原詞,w*為替換詞,C為注音詞典集合,D為兩詞間的編輯距離函數。
根據本發明所述的視聽字幕制作系統,所述原始聲音處理模塊,用于根據所述原始聲音的格式,采用對應的算法進行解碼,根據聲學模型的要求重新采樣為指定的采樣頻率,再經過去噪聲處理轉換為預定要求的聲音流。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海外教社信息技術有限公司,未經上海外教社信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210389708.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種網頁搜索設備和方法
- 下一篇:一種多節點固件升級方法和裝置





