[發明專利]一種音字轉換方法及裝置有效
| 申請號: | 201110223826.0 | 申請日: | 2011-08-05 |
| 公開(公告)號: | CN102929864A | 公開(公告)日: | 2013-02-13 |
| 發明(設計)人: | 何徑舟;黃鋆;吳中勤 | 申請(專利權)人: | 北京百度網訊科技有限公司 |
| 主分類號: | G06F17/28 | 分類號: | G06F17/28;G06F17/27 |
| 代理公司: | 北京鴻德海業知識產權代理事務所(普通合伙) 11412 | 代理人: | 袁媛 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 轉換 方法 裝置 | ||
1.一種音字轉換方法,其特征在于,所述方法包括:
A.獲取用戶輸入的讀音代碼序列;
B.對所述讀音代碼序列進行劃分,得到各讀音節點;
C.根據轉換模型的音字詞典,在每個讀音節點下生成一個或多個音字節點,所述音字節點為讀音與相應詞條的組合,其中所述轉換模型包括音字詞典與轉移詞典,所述音字詞典包括詞條的生成概率,所述轉移詞典包括詞類間的轉移概率,所述詞條的生成概率為:具有相應讀音的詞條以對應詞類出現的概率,所述詞類間的轉移概率為:前一個或多個詞類出現的條件下后一個詞類相鄰出現的概率;
D.根據所述音字詞典中的詞條的生成概率與所述轉移詞典中的詞類間的轉移概率計算所述讀音代碼序列對應的各文字序列轉換結果的得分,所述文字序列轉換結果由一個以上所述音字節點構成,且構成所述文字序列轉換結果的音字節點的讀音構成所述讀音代碼序列;
E.選擇得分排在前N1個的文字序列轉換結果作為最終結果輸出,N1為正整數。
2.根據權利要求1所述的方法,其特征在于,所述轉換模型是通過下列方式獲得的:
a.為訓練語料標注各詞條及各詞條的詞性;
b.確定各詞條在對應詞性下的詞類;
c.利用標注好的訓練語料統計各詞類間的轉移概率和各詞條以對應詞類出現的概率;
d.確定各詞條以對應讀音出現的概率,并將各詞條以對應讀音出現的概率與各詞條以對應詞類出現的概率合并,得到各詞條的生成概率;
e.根據各詞條的生成概率得到所述音字詞典,根據各詞類間的轉移概率得到所述轉移詞典,并將所述音字詞典與所述轉移詞典添加到所述轉換模型。
3.根據權利要求2所述的方法,其特征在于,所述步驟b包括以下方式中的S1,或者,S1與S2的組合且S2的執行優先級高于S1:
S1.根據各詞條的聚類特征,對具有相同詞性的詞條進行聚類,并將各詞條所屬聚類的類別作為各詞條在對應詞性下的詞類;
S2.在大規模語料中統計各詞條在對應詞性下的詞頻,并為所述詞頻大于設定閾值的每個詞條分配一個類別作為所述詞頻大于設定閾值的詞條在對應詞性下的詞類。
4.根據權利要求3所述的方法,其特征在于,所述聚類特征包括詞條在所述大規模語料中的上下文特征、詞條的位置特征、詞條的釋義特征、詞條的同義詞關系特征或詞條的結構化信息特征。
5.根據權利要求2所述的方法,其特征在于,所述詞條以對應讀音出現的概率是通過從標注讀音的訓練語料中統計得到的。
6.根據權利要求1所述的方法,其特征在于,所述步驟C中,根據所述讀音節點映射的所有詞條在大規模語料中出現頻率的高低順序,選擇排列在前的N2個詞條與所述讀音節點結合生成所述音字節點,其中N2為正整數。
7.根據權利要求1所述的方法,其特征在于,所述步驟D包括:
從所述音字詞典查找詞條的生成概率得到所述文字序列轉換結果的所有音字節點的生成概率,從所述轉換詞典查找詞類間的轉移概率得到所述文字序列轉換結果的所有音字節點的轉移概率;
將所述文字序列轉換結果的所有音字節點的生成概率與所述文字序列轉換結果的所有音字節點的轉移概率相乘得到所述轉換結果的得分。
8.一種音字轉換裝置,其特征在于,所述裝置包括:
接收單元,用戶獲取用戶輸入的讀音代碼序列;
切分單元,用于對所述讀音代碼序列進行劃分,得到各讀音節點;
節點生成單元,用于根據轉換模型的音字詞典,在每個讀音節點下生成一個或多個音字節點,所述音字節點為讀音與相應詞條的組合,其中所述轉換模型包括音字詞典與轉移詞典,所述音字詞典包括詞條的生成概率,所述轉移詞典包括詞類間的轉移概率,所述詞條的生成概率為:具有相應讀音的詞條以對應詞類出現的概率,所述詞類間的轉移概率為:前一個或多個詞類出現的條件下后一個詞類相鄰出現的概率;
計算單元,用于根據所述音字詞典中的詞條的生成概率與所述轉移詞典中的詞類間的轉移概率計算所述讀音代碼序列對應的各文字序列轉換結果的得分,所述文字序列轉換結果由一個以上所述音字節點構成,且構成所述文字序列轉換結果的音字節點的讀音構成所述讀音代碼序列;
輸出單元,選擇得分排在前N1個的文字序列轉換結果作為最終結果輸出,N1為正整數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網訊科技有限公司,未經北京百度網訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110223826.0/1.html,轉載請聲明來源鉆瓜專利網。





