[發(fā)明專利]基于信息增益改進(jìn)貝葉斯詞義消歧方法無效
| 申請(qǐng)?zhí)枺?/td> | 200810058518.5 | 申請(qǐng)日: | 2008-06-12 |
| 公開(公告)號(hào): | CN101295294A | 公開(公告)日: | 2008-10-29 |
| 發(fā)明(設(shè)計(jì))人: | 余正濤;鄧賓;韓露;郭劍毅;車文剛 | 申請(qǐng)(專利權(quán))人: | 昆明理工大學(xué) |
| 主分類號(hào): | G06F17/27 | 分類號(hào): | G06F17/27 |
| 代理公司: | 昆明正原專利代理有限責(zé)任公司 | 代理人: | 金耀生 |
| 地址: | 650093云南*** | 國(guó)省代碼: | 云南;53 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 信息 增益 改進(jìn) 貝葉斯 詞義 方法 | ||
1.一種基于信息增益改進(jìn)貝葉斯詞義消歧方法,其特征在于該方法包括:
(1)利用知網(wǎng)的義項(xiàng)描敘多義詞詞義,以構(gòu)建詞義消歧訓(xùn)練、測(cè)試語料庫(kù);
(2)利用《人民日?qǐng)?bào)》中統(tǒng)計(jì)所得到的1000高頻詞構(gòu)成的詞語集合,采用信息增益的方法統(tǒng)計(jì)并獲得基于語料庫(kù)的上下文位置權(quán)重統(tǒng)計(jì)性平均結(jié)果,從而確定上下文范圍和各位置上下文的權(quán)值;
(3)在訓(xùn)練語料庫(kù)中統(tǒng)計(jì)多義詞出現(xiàn)的概率,確定貝葉斯模型的參數(shù);
(4)根據(jù)步驟(2)的結(jié)果,改進(jìn)貝葉斯模型中特征向量的取值和計(jì)算;
(5)在數(shù)據(jù)平滑處理中,采用“Add?One”的平滑方法;
(6)根據(jù)步驟(3)、(4)和(5),確定多義詞最終的義項(xiàng)。
2.根據(jù)權(quán)利要求1所述的基于信息增益改進(jìn)貝葉斯詞義消歧方法,其特征在于步驟(1)具體為,人工標(biāo)注的方式構(gòu)建訓(xùn)練語料庫(kù),對(duì)訓(xùn)練語料庫(kù)中的詞語進(jìn)行分詞、詞性標(biāo)注、義項(xiàng)標(biāo)注,利用1998年的PFR人民日?qǐng)?bào)標(biāo)注語料庫(kù),使用知網(wǎng)的義項(xiàng)對(duì)對(duì)其中的多義詞進(jìn)行標(biāo)注。
3.根據(jù)權(quán)利要求1所述的基于信息增益改進(jìn)貝葉斯詞義消歧方法,其特征在于步驟(2)具體為,上下文有效范圍以及各位置上下文權(quán)值的確定采用信息增益的計(jì)算方法來獲得,以此確定各位置的信息量,信息量計(jì)算如下:
IGP=H(W)-H(W|VP)。
4.根據(jù)權(quán)利要求1所述的基于信息增益改進(jìn)貝葉斯詞義消歧方法,其特征在于步驟(5)具體為,對(duì)那些沒有統(tǒng)計(jì)的詞語記為λ次,分別調(diào)整P(xp|s)和P(s)的計(jì)算公式,如下所示:
5.根據(jù)權(quán)利要求1所述的基于信息增益改進(jìn)貝葉斯詞義消歧方法,其特征在于:步驟(6)中使用信息增益的方法,計(jì)算出詞語在上下文中位置的權(quán)重,并利用這些權(quán)重來改變特征向量中特征維權(quán)重的大小,借助歧義詞句子上下文對(duì)歧義詞的影響關(guān)系,改進(jìn)貝葉斯詞義消歧模型,計(jì)算方法如下:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于昆明理工大學(xué),未經(jīng)昆明理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200810058518.5/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 信息記錄介質(zhì)、信息記錄方法、信息記錄設(shè)備、信息再現(xiàn)方法和信息再現(xiàn)設(shè)備
- 信息記錄裝置、信息記錄方法、信息記錄介質(zhì)、信息復(fù)制裝置和信息復(fù)制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄設(shè)備、信息重放設(shè)備、信息記錄方法、信息重放方法、以及信息記錄介質(zhì)
- 信息存儲(chǔ)介質(zhì)、信息記錄方法、信息重放方法、信息記錄設(shè)備、以及信息重放設(shè)備
- 信息存儲(chǔ)介質(zhì)、信息記錄方法、信息回放方法、信息記錄設(shè)備和信息回放設(shè)備
- 信息記錄介質(zhì)、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置





