[發(fā)明專利]一種音字轉換方法及裝置有效
| 申請?zhí)枺?/td> | 201110223826.0 | 申請日: | 2011-08-05 |
| 公開(公告)號: | CN102929864A | 公開(公告)日: | 2013-02-13 |
| 發(fā)明(設計)人: | 何徑舟;黃鋆;吳中勤 | 申請(專利權)人: | 北京百度網訊科技有限公司 |
| 主分類號: | G06F17/28 | 分類號: | G06F17/28;G06F17/27 |
| 代理公司: | 北京鴻德海業(yè)知識產權代理事務所(普通合伙) 11412 | 代理人: | 袁媛 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 轉換 方法 裝置 | ||
【技術領域】
本發(fā)明涉及自然語言處理技術領域,特別涉及一種音字轉換方法及裝置。
【背景技術】
音字轉換方法,是輸入法的一種,指的是將用戶通過輸入設備輸入的表示文字讀音的代碼序列,轉換為實際需要的文字序列的方法。在音字轉換過程中,需要通過轉換模型計算與讀音代碼序列對應的文字序列的合理性,在現(xiàn)有技術中,該合理性的計算依據(jù)之一為轉換模型中詞與詞在大規(guī)模語料中的共現(xiàn)概率。
例如輸入的讀音代碼序列為“mianduixianshi”,可以轉換為“面對現(xiàn)實”或“面對閑事”等等文字序列,在判斷這些文字序列的合理性時,由于在大規(guī)模語料中統(tǒng)計得到“面對”與“現(xiàn)實”的共現(xiàn)概率遠高于“面對”與“閑事”的共現(xiàn)概率,因此“面對現(xiàn)實”這個文字序列就比“面對閑事”這個文字序列合理。
在這種轉換方法中,假設轉換模型的詞典中包含的詞條數(shù)為N,僅以考慮詞與詞的二元共現(xiàn)為例,相應的共現(xiàn)概率信息的規(guī)模就達到了N2,如果詞條的數(shù)目很大,就會造成輸入法規(guī)模的急劇膨脹,所以,在這種方法下,為了使輸入法的規(guī)模達到一個合理的程度,就必須對詞典進行裁剪,而這必然導致一些信息量丟失,使得在轉換過程中,不得不使用插值估計的方式來獲取相應的文字序列,從而降低了輸入法的轉換精度。
此外,這種方式下為詞典添加新的詞條也比較困難,因為當添加新詞時,該新詞與其他詞之間的共現(xiàn)概率信息比較難獲得,如果失去了這一共現(xiàn)概率信息,就會導致轉換的效果變差,而即使采用估計算法獲取這一共現(xiàn)概率信息,也很難達到真實的精度。由于現(xiàn)有技術的音字轉換方法存在添加新詞困難的缺陷,從而影響了輸入法的擴展性。
【發(fā)明內容】
本發(fā)明所要解決的技術問題是提供一種音字轉換的方法和裝置,以解決現(xiàn)有的音字轉換方法中存在的輸入法轉換精度降低和擴展性較差的缺陷。
本發(fā)明為解決技術問題而采用的技術方案是提供一種音字轉換方法,包括:A.獲取用戶輸入的讀音代碼序列;B.對所述讀音代碼序列進行劃分,得到各讀音節(jié)點;C.根據(jù)轉換模型的音字詞典,在每個讀音節(jié)點下生成一個或多個音字節(jié)點,所述音字節(jié)點為讀音與相應詞條的組合,其中所述轉換模型包括音字詞典與轉移詞典,所述音字詞典包括詞條的生成概率,所述轉移詞典包括詞類間的轉移概率,所述詞條的生成概率為:具有相應讀音的詞條以對應詞類出現(xiàn)的概率,所述詞類間的轉移概率為:前一個或多個詞類出現(xiàn)的條件下后一個詞類相鄰出現(xiàn)的概率;D.根據(jù)所述音字詞典中的詞條的生成概率與所述轉移詞典中的詞類間的轉移概率計算所述讀音代碼序列對應的各文字序列轉換結果的得分,所述文字序列轉換結果由一個以上所述音字節(jié)點構成,且構成所述文字序列轉換結果的音字節(jié)點的讀音構成所述讀音代碼序列;E.選擇得分排在前N1個的文字序列轉換結果作為最終結果輸出,N1為正整數(shù)。
根據(jù)本發(fā)明之一優(yōu)選實施例,所述轉換模型是通過下列方式獲得的:a.為訓練語料標注各詞條及各詞條的詞性;b.確定各詞條在對應詞性下的詞類;c.利用標注好的訓練語料統(tǒng)計各詞類間的轉移概率和各詞條以對應詞類出現(xiàn)的概率;d.確定各詞條以對應讀音出現(xiàn)的概率,并將各詞條以對應讀音出現(xiàn)的概率與各詞條以對應詞類出現(xiàn)的概率合并,得到各詞條的生成概率;e.根據(jù)各詞條的生成概率得到所述音字詞典,根據(jù)各詞類間的轉移概率得到所述轉移詞典,并將所述音字詞典與所述轉移詞典添加到所述轉換模型。
根據(jù)本發(fā)明之一優(yōu)選實施例,所述步驟b包括以下方式中的S1,或者,S1與S2的組合且S2的執(zhí)行優(yōu)先級高于S1:S1.根據(jù)各詞條的聚類特征,對具有相同詞性的詞條進行聚類,并將各詞條所屬聚類的類別作為各詞條在對應詞性下的詞類;S2.在大規(guī)模語料中統(tǒng)計各詞條在對應詞性下的詞頻,并為所述詞頻大于設定閾值的每個詞條分配一個類別作為所述詞頻大于設定閾值的詞條在對應詞性下的詞類。
根據(jù)本發(fā)明之一優(yōu)選實施例,所述聚類特征包括詞條在所述大規(guī)模語料中的上下文特征、詞條的位置特征、詞條的釋義特征、詞條的同義詞關系特征或詞條的結構化信息特征。
根據(jù)本發(fā)明之一優(yōu)選實施例,所述詞條以對應讀音出現(xiàn)的概率是通過從標注讀音的訓練語料中統(tǒng)計得到的。
根據(jù)本發(fā)明之一優(yōu)選實施例,所述步驟C中,根據(jù)所述讀音節(jié)點映射的所有詞條在大規(guī)模語料中出現(xiàn)頻率的高低順序,選擇排列在前的N2個詞條與所述讀音節(jié)點結合生成所述音字節(jié)點,其中N2為正整數(shù)。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網訊科技有限公司,未經北京百度網訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110223826.0/2.html,轉載請聲明來源鉆瓜專利網。





