[發明專利]一種基于統計規律的中文詞匯表未登錄詞比率的估計方法有效
| 申請號: | 201611049017.1 | 申請日: | 2016-11-23 |
| 公開(公告)號: | CN108109624B | 公開(公告)日: | 2021-06-08 |
| 發明(設計)人: | 張鵬遠;張一珂;黎塔;顏永紅 | 申請(專利權)人: | 中國科學院聲學研究所;北京中科信利技術有限公司 |
| 主分類號: | G10L15/26 | 分類號: | G10L15/26;G10L15/10;G10L15/04 |
| 代理公司: | 北京方安思達知識產權代理有限公司 11472 | 代理人: | 王宇楊;楊青 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 統計 規律 中文 詞匯表 登錄 比率 估計 方法 | ||
本發明提供了一種基于統計規律的中文詞匯表未登錄詞比率的估計方法,利用本發明提供的估計方法,解決了無法直接計算中文詞匯表未登錄詞比率的技術問題;相比于采用字錯誤率(CER)衡量方法,本發明的估計方法通過采用中文詞匯表未登錄詞比率來衡量中文識別系統性能,不僅省去了解碼語音數據的時間,從而縮短評價某個特定中文語音識別系統所需的時間,而且可以在中文語音識別系統搭建之初選擇性能最佳的中文詞匯表,進而得到性能最佳的中文語音識別系統。
技術領域
本發明涉及語音識別領域和自然語言處理領域,特別涉及一種基于統計規律的中文詞匯表未登錄詞比率的估計方法。
背景技術
未登錄詞,又稱生詞(unknown word)或集外詞(out-of-vocabulary,OOV),是指已有的詞匯表中沒有收錄的詞或已有訓練語料中未曾出現過的詞。
未登錄詞的情況比較復雜,可以粗略劃分為如下幾種類型:(1)新出現的普通詞匯,如博客、房奴等網絡詞匯;(2)專有名詞或命名實體,包括人名、地名、組織機構名、時間及數字表達等;(3)專業名詞和研究領域名稱;(4)其他專用名詞,如新出現的產品名,書籍、電影等文藝作品的名稱。
未登錄詞比率是衡量詞匯表性能的一種指標。在實際應用中,詞匯表不可能包含某一領域所有的詞匯。而未登錄詞往往會對自然語言處理任務造成嚴重的影響。在自動語音識別任務中,未登錄詞比率與識別精度直接相關:未登錄詞比率越小,識別字錯誤率(character error rate,CER)或詞錯誤率(word error rate,WER)越低。平均一個未登錄詞會造成1.2%的識別錯誤率提升。因此,對于一個包含若干候選詞匯表的識別任務,可以利用詞匯表的未登錄詞比率預估系統性能,從而快速地選擇使系統性能最優的詞匯表,而不必分別利用不同詞匯表搭建整套系統后再分析詞匯表的性能。
對于英文詞匯表,我們可以通過以下公式計算給定文本的未登錄詞比率:
式中,#OOV表示文本中未登錄詞的數目,#WORD表示文本中的總詞數。
然而對于中文詞匯表,無法通過上式直接計算未登錄詞比率。因為在中文分詞過程中,未登錄詞會被分隔成若干個單字或集內詞(in-vocabulary),而所有單字一般都包含在詞匯表中。即中文分詞過程破壞了文本中的未登錄詞,使得我們無法直接計算未登錄詞的比率。
發明內容
本發明的目的在于,為了解決無法直接計算中文詞匯表未登錄詞比率的技術問題,本發明提出了一種基于統計規律的中文詞匯表未登錄詞比率的估計方法。
為實現上述目的,本發明提供的基于統計規律的中文詞匯表未登錄詞比率的估計方法,包括:
步驟1)統計選定的中文詞匯表中包含的單字數和總詞數;
步驟2)利用中文詞匯表對給定的文本進行自動分詞,并統計自動分詞后文本中包含的單字數和總詞數,計算獲得自動分詞后文本的平均詞長,其中文本中的總詞數包含單字詞,文本中的單字數包含單字詞和被分割成單字的未登錄詞;
步驟3)計算自動分詞后文本中包含的單字數占總詞數的比率,將其定義為單字率:
其中,#ch表示自動分詞后文本中包含的單字數,#w表示自動分詞后文本中包含的總詞數;
步驟4)利用下述公式計算獲得未登錄詞數:
其中,#OOV表示未登錄詞數,ɑ表示先驗因子,定義為中文平均詞長與單字詞長歐式距離的倒數,Nch表示中文詞匯表中包含的單字數,Nvocab表示中文詞匯表中包含的總詞數,LOOV表示未登錄詞的平均長度;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院聲學研究所;北京中科信利技術有限公司,未經中國科學院聲學研究所;北京中科信利技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611049017.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:控制方法、控制裝置和烹飪設備
- 下一篇:手機語音識別內外網傳輸系統及方法





