[發明專利]基于韻律短語的韻律結構生成方法有效
| 申請號: | 200910091510.3 | 申請日: | 2009-08-26 |
| 公開(公告)號: | CN101650942A | 公開(公告)日: | 2010-02-17 |
| 發明(設計)人: | 董遠;周濤 | 申請(專利權)人: | 北京郵電大學 |
| 主分類號: | G10L13/08 | 分類號: | G10L13/08;G06N1/00;G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100876*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 韻律 短語 結構 生成 方法 | ||
1.一種用于生成中文韻律結構邊界的方法,對已經過分詞和詞性標注的真實文本,給出其韻 律短語邊界與韻律詞邊界,以提高語音合成的自然度,該方法包括:
步驟一,韻律短語邊界識別;
步驟二,韻律詞邊界識別;
步驟三,分層韻律結構生成;
其中,所述步驟一具體包括下述步驟:
步驟1,在韻律短語邊界預測中,每一個分詞邊界都被認為是一個潛在的韻律短語邊界;
在給出分詞邊界的上下文信息的前提下,利用最大熵模型計算出該邊界作為韻律短語邊界 的概率;如果概率達到一定值,則該邊界被認為是一個韻律短語邊界;同時通過分析語料中各 種句子的韻律短語結構,結合最大熵算法的特點,為韻律短語(PP)設計含韻律短語邊界信息 量最大的特征,并對各種特征進行拓展與組合,設計對韻律短語最具決定性的特征模版,用 于建立韻律短語的最大熵模型,并用于韻律短語邊界的預測;
步驟2,通過分析最大熵模型在預測韻律短語邊界中的一些錯誤和不足,采用一種半自 動的特征選擇方法;并對各種特征進行拓展與組合,運用錯誤驅動的規則學習方法生成一定數 量的最優規則,進一步提高韻律短語邊界預測的準確率;
步驟2中所述的半自動的特征選擇方法具體包括:
①手動設計一個特征模板,并在上面定義所有的候選模板,然后每次選擇其中的 一個或者幾個特征進行實驗,選取其中效果最明顯的,即包含韻律邊界信息量 最大的特征;
其中,①所述的特征模板設計是為了獲取盡可能多的非標準詞信息,針對具體的應用, 本發明設計的特征分為公有特征和私有特征;公有特征是指對于韻律短語和韻律詞建模 都適用的特征,而私有特征則是分別為韻律短語和韻律詞所設計的;
②針對Word和POS這兩個特征進行拓展,以得到一些新的特征類型,這兩個特 征類型設計的拓展窗口長度都為2,Word表示語法詞特征,POS表征語法詞的 詞性標注特征;
③組合2種不同類別的特征以得到新的特征類型;
④一共為韻律短語的最大熵模型訓練設計了36個特征,并利用以上特征對韻律短 語類型進行最大熵建模以用于韻律短語邊界生成;
步驟3,由于韻律結構中的一些固定模式,部分韻律短語邊界的判斷存在著一些明顯的 錯誤,所以在利用最大熵模型進行韻律短語邊界的判定后,加入錯誤驅動的規則學習模塊, 針對實際語料,分析其中的文本特征和韻律結構,歸納最大熵模型未能處理的和處理錯誤的 一些情況,構造韻律短語邊界判定的最優規則,通過規則對一些錯誤進行糾正,進一步提高 韻律短語邊界預測的準確性;
步驟3中所述的錯誤驅動的規則學習模塊具體包括:首先對相關語料做預處理,提取出 帶有韻律短語信息的特征,然后對這些特征的分析,設計一系列相應的規則模板;并對不同 的特征,用相應的模板進行規則學習以得出一系列規則,然后取適當的測試集,對訓練得到 的這些規則進行測試,從中提取出符合要求數量的最優規則;
其中,錯誤驅動的規則學習模塊中的特征設計具體還包括:采用與上述步驟2中最大熵 模型訓練相同的特征,同時考慮到這些特征在實際應用中對韻律短語邊界識別的重要性的不 同,同時也為了提高規則對韻律短語邊界的實際識別能力,在這些特征的基礎上,對特征進 行適當拓展,設計并選取了其中30種含信息量最大的的特征模板;
其中,每一個步驟3所述的規則都是由2-3個特征組合而成,并且都具有相同的格式;
步驟二所述韻律詞邊界識別的步驟包括下述步驟:
步驟1,通過分析語料中各種句子的韻律詞結構,結合最大熵算法的特點,同時結合步 驟一已經得到韻律短語邊界信息,為韻律詞(PW)設計含韻律詞邊界信息量最大的特征,并對 各種特征進行拓展與組合,設計對韻律詞最具決定性的特征模版,用于建立韻律詞的最大熵 模型,并用于韻律詞邊界的預測;
步驟2,通過分析最大熵模型在預測韻律詞邊界中的一些錯誤和不足,有針對性地設計 特征,并對各種特征進行拓展與組合,運用錯誤驅動的規則學習方法生成一定數量的最優規 則,進一步提高韻律詞邊界預測的準確率;
步驟三具體包括:設計一一對應的規則對前述步驟一、二的判斷結果進行修正;這些規 則都是按照“條件-結果”的結構設計的,規則中的條件與經過前述步驟一、二判斷得到的韻 律邊界情況進行比較,這里的韻律邊界包括韻律短語邊界,韻律詞邊界和語法詞邊界;如果 “條件”相同而“結果”不相同,則按照規則中設計的結果進行修正,通過一系列規則對韻 律短語邊界和韻律詞邊界進行修正,生成分層韻律結構。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京郵電大學,未經北京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200910091510.3/1.html,轉載請聲明來源鉆瓜專利網。





