[發(fā)明專利]一種基于同義詞擴(kuò)展的貝葉斯詞義消歧方法在審
| 申請?zhí)枺?/td> | 201611157518.1 | 申請日: | 2016-12-15 |
| 公開(公告)號: | CN106598947A | 公開(公告)日: | 2017-04-26 |
| 發(fā)明(設(shè)計(jì))人: | 楊陟卓;張虎;李茹;陳千;譚紅葉 | 申請(專利權(quán))人: | 山西大學(xué) |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06K9/62 |
| 代理公司: | 山西五維專利事務(wù)所(有限公司)14105 | 代理人: | 郭海燕 |
| 地址: | 030006 山*** | 國省代碼: | 山西;14 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 同義詞 擴(kuò)展 貝葉斯 詞義 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明屬于自然語言處理方法技術(shù)領(lǐng)域,具體地說,涉及一種基于同義詞擴(kuò)展的貝葉斯詞義消歧方法。
技術(shù)背景
詞義消歧(Word Sense Disambiguation,WSD)是指確定多義詞在自然語言特定的上下文中的意義,它是自然語言處理領(lǐng)域的一個核心問題。在機(jī)器理解自然語言的過程中,當(dāng)一個歧義詞出現(xiàn)在特定的上下文中時,就會出現(xiàn)詞語的歧義現(xiàn)象,尤其是在當(dāng)前“信息爆炸”的互聯(lián)網(wǎng)時代,詞匯的歧義問題就顯得更加嚴(yán)重。無論是中文還是西方語言,一詞多義的現(xiàn)象普遍存在。統(tǒng)計(jì)研究表明,在大規(guī)模語料庫中,中文文本和英文文本在語料中出現(xiàn)的歧義詞頻率達(dá)到40%左右。頻率極高的歧義詞嚴(yán)重影響了機(jī)器對自然語言的正常理解和處理,該問題已經(jīng)是其面臨的最大困難之一。該技術(shù)的發(fā)展,會極大的促進(jìn)諸如語言識別、句法分析、信息檢索、機(jī)器翻譯、文本處理等自然語言處理領(lǐng)域的發(fā)展。
目前,基于語料庫的詞義消歧方法可分為有監(jiān)督和無監(jiān)督方法。無監(jiān)督方法不需要訓(xùn)練語料,但該方法的消歧效果卻不盡如人意,很難達(dá)到實(shí)用目的。有監(jiān)督方法的消歧效果要明顯優(yōu)于無監(jiān)督方法,但該方法需要大規(guī)模高質(zhì)量的訓(xùn)練語料支持,而獲取大規(guī)模高質(zhì)量的訓(xùn)練語料費(fèi)時費(fèi)力,嚴(yán)重阻礙了有監(jiān)督詞義消歧方法大規(guī)模應(yīng)用。為了解決此問題,很多學(xué)者開始研究自動生成有標(biāo)注語料的方法。該方法通常先利用字典和大規(guī)模無標(biāo)注的語料庫自動生成有標(biāo)注數(shù)據(jù),然后采用有監(jiān)督方法訓(xùn)練消歧模型,進(jìn)行消歧。
發(fā)明內(nèi)容
本發(fā)明主要針對當(dāng)前的詞義消歧方法存在消歧效果差、獲取消歧知識費(fèi)時費(fèi)力等問題,提供一種基于同義詞擴(kuò)展的貝葉斯詞義消歧方法。
本發(fā)明為解決上述問題而采取的技術(shù)方案為:
一種基于同義詞擴(kuò)展的貝葉斯詞義消歧方法,包括以下步驟:
步驟1、采用同義詞詞林將訓(xùn)練語料庫的上下文進(jìn)行擴(kuò)展,生成大量偽訓(xùn)練語料;
步驟2、利用詞語搭配語料庫去除偽訓(xùn)練語料中的噪聲,生成偽訓(xùn)練語料庫;
步驟3、同時采用訓(xùn)練語料庫和偽訓(xùn)練語料庫訓(xùn)練貝葉斯消歧模型;
步驟4、將測試語料輸入貝葉斯消歧模型,綜合利用兩種語料庫中的消歧知識,共同決策歧義詞的詞義。
進(jìn)一步地,本發(fā)明所述步驟1的具體步驟為:首先,采用人工標(biāo)注的方式建立小規(guī)模詞義消歧訓(xùn)練語料庫,然后利用同義詞詞林,對歧義詞所處句子中的上下文進(jìn)行擴(kuò)展,最后將擴(kuò)展后的同義詞、歧義詞以及該句中歧義詞的詞義,生成大量偽訓(xùn)練語料。
本發(fā)明步驟2的具體步驟為:利用同義詞詞林對歧義詞的上下文進(jìn)行擴(kuò)展,針對擴(kuò)展的上下文,統(tǒng)計(jì)與歧義詞在詞語搭配語料庫中共現(xiàn)次數(shù),只利用具有一定共現(xiàn)次數(shù)的上下文,構(gòu)建偽訓(xùn)練語料庫。
本發(fā)明所述步驟3中同時采用訓(xùn)練語料庫和偽訓(xùn)練語料庫訓(xùn)練貝葉斯消歧模型,計(jì)算公式為:
公式中,si表示歧義詞詞義,w-L...wL表示歧義詞w0附近一定窗口大小L下的詞語,fj表示歧義詞的某個上下文特征,F(xiàn)表示上下文的特征集合,p(fj|si)表示詞義與特征的條件概率,計(jì)算如公式為:
c(si)表示詞義si在語料庫中出現(xiàn)的次數(shù),c(fj,si)表示特征fj與詞義si在訓(xùn)練語料中的共現(xiàn)次數(shù)。
本發(fā)明所述步驟4的具體步驟為:將由同義詞詞林?jǐn)U展的上下文所組成的語言片段,當(dāng)作偽訓(xùn)練語料,綜合利用訓(xùn)練語料庫和偽訓(xùn)練語料庫中的知識,進(jìn)行詞義消歧,在估計(jì)詞義和特征的條件概率時,由以下公式計(jì)算得出:
公式中ct(fj,si)表示詞義si與特征fj在訓(xùn)練語料中的共現(xiàn)次數(shù),ct(si)表示詞義si在訓(xùn)練語料中的出現(xiàn)次數(shù),cp(fj,si)表示特征與歧義詞在偽訓(xùn)練語料中的共現(xiàn)次數(shù),cp(si)表示詞義si在偽訓(xùn)練語料中出現(xiàn)次數(shù),λ的取值為0.7。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于山西大學(xué),未經(jīng)山西大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611157518.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 一種自主融合先驗(yàn)知識的貝葉斯網(wǎng)絡(luò)方法
- 構(gòu)建解決組合爆炸問題的級聯(lián)貝葉斯網(wǎng)絡(luò)的方法
- 一種可重構(gòu)系統(tǒng)貝葉斯網(wǎng)構(gòu)建方法
- 一種基于貝葉斯網(wǎng)絡(luò)的網(wǎng)站缺陷預(yù)測方法及其實(shí)現(xiàn)系統(tǒng)
- 應(yīng)用處理方法、裝置、存儲介質(zhì)及電子設(shè)備
- 一種遮擋目標(biāo)檢測方法、電子設(shè)備、存儲介質(zhì)及系統(tǒng)
- 基于貝葉斯網(wǎng)絡(luò)推理模型的犯罪重建方法及裝置
- 利用憶阻器本征噪聲實(shí)現(xiàn)貝葉斯神經(jīng)網(wǎng)絡(luò)的方法及裝置
- 基于面向?qū)ο筘惾~斯網(wǎng)絡(luò)的中央空調(diào)系統(tǒng)故障診斷方法
- 一種基于貝葉斯神經(jīng)網(wǎng)絡(luò)權(quán)重約束的圖像分類方法





