[發(fā)明專利]一種基于統(tǒng)計(jì)規(guī)律的中文詞匯表未登錄詞比率的估計(jì)方法有效
| 申請?zhí)枺?/td> | 201611049017.1 | 申請日: | 2016-11-23 |
| 公開(公告)號: | CN108109624B | 公開(公告)日: | 2021-06-08 |
| 發(fā)明(設(shè)計(jì))人: | 張鵬遠(yuǎn);張一珂;黎塔;顏永紅 | 申請(專利權(quán))人: | 中國科學(xué)院聲學(xué)研究所;北京中科信利技術(shù)有限公司 |
| 主分類號: | G10L15/26 | 分類號: | G10L15/26;G10L15/10;G10L15/04 |
| 代理公司: | 北京方安思達(dá)知識產(chǎn)權(quán)代理有限公司 11472 | 代理人: | 王宇楊;楊青 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 統(tǒng)計(jì) 規(guī)律 中文 詞匯表 登錄 比率 估計(jì) 方法 | ||
1.一種基于統(tǒng)計(jì)規(guī)律的中文詞匯表未登錄詞比率的估計(jì)方法,其特征在于,包括:
步驟1)統(tǒng)計(jì)選定的中文詞匯表中包含的單字?jǐn)?shù)和總詞數(shù);
步驟2)利用中文詞匯表對給定的文本進(jìn)行自動分詞,并統(tǒng)計(jì)自動分詞后文本中包含的單字?jǐn)?shù)和總詞數(shù),計(jì)算獲得自動分詞后文本的平均詞長,其中文本中的總詞數(shù)包含單字詞,文本中的單字?jǐn)?shù)包含單字詞和被分割成單字的未登錄詞;
步驟3)計(jì)算自動分詞后文本中包含的單字?jǐn)?shù)占總詞數(shù)的比率,將其定義為單字率:
其中,#ch表示自動分詞后文本中包含的單字?jǐn)?shù),#w表示自動分詞后文本中包含的總詞數(shù);
步驟4)利用下述公式計(jì)算獲得未登錄詞數(shù):
其中,#OOV表示未登錄詞數(shù),ɑ表示先驗(yàn)因子,定義為中文平均詞長與單字詞長歐式距離的倒數(shù),Nch表示中文詞匯表中包含的單字?jǐn)?shù),Nvocab表示中文詞匯表中包含的總詞數(shù),LOOV表示未登錄詞的平均長度;
步驟5)估計(jì)手工分詞后文本中包含的總詞數(shù):
其中,#WORD表示手工分詞后文本中包含的總詞數(shù),Loracle表示手工分詞后文本的平均詞長,Leval表示自動分詞后文本的平均詞長;
步驟6)將步驟4)中獲得的未登錄詞數(shù)#OOV,與步驟5)中獲得的手工分詞后文本中包含的總詞數(shù)之比,作為中文詞匯表未登錄詞比率的估計(jì)值;
進(jìn)而推導(dǎo)出中文詞匯表未登錄詞比率:
2.根據(jù)權(quán)利要求1所述基于統(tǒng)計(jì)規(guī)律的中文詞匯表未登錄詞比率的估計(jì)方法,其特征在于,所述自動分詞的方法采用最大匹配分詞算法或最大熵分詞算法或基于條件隨機(jī)場的分詞算法。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國科學(xué)院聲學(xué)研究所;北京中科信利技術(shù)有限公司,未經(jīng)中國科學(xué)院聲學(xué)研究所;北京中科信利技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611049017.1/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 統(tǒng)計(jì)系統(tǒng)、統(tǒng)計(jì)裝置和統(tǒng)計(jì)方法
- 人數(shù)統(tǒng)計(jì)方法和人數(shù)統(tǒng)計(jì)系統(tǒng)
- 統(tǒng)計(jì)物體數(shù)量的統(tǒng)計(jì)系統(tǒng)
- 網(wǎng)絡(luò)處理器的統(tǒng)計(jì)計(jì)數(shù)方法
- 統(tǒng)計(jì)信息上報(bào)方法及裝置
- 稿件統(tǒng)計(jì)方法和稿件統(tǒng)計(jì)系統(tǒng)
- 數(shù)據(jù)統(tǒng)計(jì)方法及裝置
- 獲取數(shù)據(jù)的統(tǒng)計(jì)狀態(tài)的方法及裝置
- 信息統(tǒng)計(jì)方法和信息統(tǒng)計(jì)裝置
- 電量統(tǒng)計(jì)系統(tǒng)及電量統(tǒng)計(jì)方法
- 天時規(guī)律儀
- 找規(guī)律演示器
- 解碼器中ROM的設(shè)計(jì)方法和解碼器
- 面向半導(dǎo)體制造設(shè)備功能仿真的參數(shù)變化規(guī)律模擬系統(tǒng)
- 一種時空規(guī)律的地鐵乘客聚類和邊緣檢測方法
- 用于插電式混合動力汽車綜合型換擋規(guī)律實(shí)現(xiàn)方法
- 生活規(guī)律測定系統(tǒng)和生活規(guī)律測定方法
- 航空發(fā)動機(jī)同軸壓氣機(jī)可調(diào)導(dǎo)葉的控制方法
- 錢包(規(guī)律鏤空)
- 端到端海空活動目標(biāo)數(shù)據(jù)規(guī)律實(shí)時挖掘方法





