[發(fā)明專利]一種基于圖卷積神經(jīng)網(wǎng)絡(luò)的中文詞義消歧方法有效
| 申請?zhí)枺?/td> | 202110485038.2 | 申請日: | 2021-04-30 |
| 公開(公告)號: | CN113095087B | 公開(公告)日: | 2022-11-25 |
| 發(fā)明(設(shè)計)人: | 劉睿;仇化平;黃長帥 | 申請(專利權(quán))人: | 哈爾濱理工大學(xué) |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F40/289;G06F40/268;G06F16/35;G06N3/04;G06N3/08 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 150080 黑龍*** | 國省代碼: | 黑龍江;23 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 圖卷 神經(jīng)網(wǎng)絡(luò) 中文 詞義 方法 | ||
本發(fā)明涉及一種基于圖卷積神經(jīng)網(wǎng)絡(luò)(Graph Convolution Network,GCN)的中文詞義消歧方法。本發(fā)明首先對漢語語料進行預(yù)處理。該步驟對訓(xùn)練和測試語料包含歧義詞的語句進行分詞、詞性標注和語義標注處理。以歧義詞所在的句子,以及句中所包含的詞形、詞性和語義作為消歧特征并作為節(jié)點來構(gòu)建詞義消歧特征圖,使用Word2Vec、Doc2Vec工具和點互信息(PMI)、TF?IDF方法對節(jié)點和邊進行嵌入權(quán)值。用訓(xùn)練語料訓(xùn)練GCN模型,將模型優(yōu)化。用優(yōu)化后的GCN模型,對測試語料進行詞義消歧,可得到歧義詞匯在各個語義類別下的概率分布。將概率最大值對應(yīng)的語義類判別為歧義詞匯的語義類。本發(fā)明具有較好的詞義消歧效果,更準確的判斷歧義詞匯的真實含義。
技術(shù)領(lǐng)域:
本發(fā)明涉及一種基于圖卷積神經(jīng)網(wǎng)絡(luò)的中文詞義消歧方法,該方法可以很好的應(yīng)用在自然語言處理領(lǐng)域。
背景技術(shù):
詞義消歧是自然語言處理領(lǐng)域中的基礎(chǔ)性研究課題。在自然語言中,常常存在著一詞多義的現(xiàn)象,往往給文本分類、機器翻譯、信息檢索等方面的應(yīng)用帶來一些困擾。根據(jù)上下文特定的語言環(huán)境,找出歧義詞匯的真實語義,提高詞匯表示的準確性,將會給以上應(yīng)用領(lǐng)域中帶來更好的效果。
目前,經(jīng)常使用一些常見的算法對歧義詞匯進行消歧和分類,例如:樸素貝葉斯、K-means、基于關(guān)聯(lián)規(guī)則的分類方法和人工神經(jīng)網(wǎng)絡(luò)等。但是,這些傳統(tǒng)的算法存在著一些缺點,不能充分的提取消歧特征或者僅限于局部消歧特征提取,且分類器分類效果不是很好。近年來,深度學(xué)習(xí)算法已經(jīng)廣泛的應(yīng)用到自然語言處理領(lǐng)域,像循環(huán)神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)等算法模型,這些深度學(xué)習(xí)算法可以更好的提取消歧特征。圖卷積神經(jīng)網(wǎng)絡(luò)(GraphConvolutionNetwork,GCN)模型是最近兩年內(nèi)提出來的深度學(xué)習(xí)算法,此模型直接在圖上進行建模,通過構(gòu)造詞義消歧特征圖的形式,可以將消歧特征更好的提取出來,將節(jié)點以及其鄰域節(jié)點的消歧特征進行融合。對于歧義詞匯而言,可以很好地應(yīng)用GCN網(wǎng)絡(luò)來進行消歧,實現(xiàn)語義的正確分類。
發(fā)明內(nèi)容:
鑒于此,為了解決自然語言處理領(lǐng)域中針對中文里一詞多義的現(xiàn)象,本發(fā)明公開了一種基于圖卷積神經(jīng)網(wǎng)絡(luò)的中文詞義消歧方法。
為此,本發(fā)明提供了如下技術(shù)方案:
1.基于圖卷積神經(jīng)網(wǎng)絡(luò)的中文詞義消歧方法,其特征在于,該方法包括以下步驟:
步驟1:對語料中所包含的所有漢語句子進行分詞、詞性標注和語義類標注,選取歧義詞匯所在的句子,以及句子內(nèi)的詞形、詞性和語義類作為消歧特征。
步驟2:提取歧義詞匯所在的句子,以及句子內(nèi)的詞形、詞性和語義類,使用Doc2Vec工具將提取的句子特征進行向量化處理,使用Word2Vec工具將詞形、詞性和語義類特征進行向量化處理。將處理好的語料分為訓(xùn)練語料和測試語料,其中訓(xùn)練語料占大部分。
步驟3:構(gòu)建詞義消歧特征圖,將提取的句子,以及句子內(nèi)的詞形、詞性和語義類作為圖中的節(jié)點,構(gòu)建詞形與詞形節(jié)點之間的邊,詞形與句子節(jié)點之間的邊,詞形與詞性節(jié)點之間的邊,詞形與語義類節(jié)點之間的邊。
步驟4:訓(xùn)練過程為:由訓(xùn)練數(shù)據(jù)構(gòu)建好的詞義消歧特征圖輸入到GCN模型里面進行訓(xùn)練,得到優(yōu)化后的GCN模型。
步驟5:測試過程為:由測試數(shù)據(jù)構(gòu)建的詞義消歧特征圖輸入到優(yōu)化后的GCN模型里面進行測試,即語義分類過程。計算歧義詞匯在每個語義類別下的概率分布,其中,具有最大概率的語義類即為歧義詞匯的語義類。
2.根據(jù)權(quán)利要求1所述的基于圖卷積神經(jīng)網(wǎng)絡(luò)的中文詞義消歧方法,其特征在于,所述步驟1中,對漢語句子進行分詞、詞性標注和語義類標注,提取消歧特征,具體步驟為:
步驟1-1利用漢語分詞工具對漢語句子進行詞匯切分;
步驟1-2利用漢語詞性標注工具對已切分好的詞匯進行詞性標注;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于哈爾濱理工大學(xué),未經(jīng)哈爾濱理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110485038.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種腸胃鏡配套清潔達標圖譜
- 一種混合高低階圖卷積傳播系統(tǒng)
- 基于圖結(jié)構(gòu)矩陣特征向量的圖卷積神經(jīng)網(wǎng)絡(luò)生成方法
- 基于骨骼關(guān)節(jié)點的圖卷積行為識別方法及裝置
- 一種基于網(wǎng)絡(luò)結(jié)構(gòu)增強的圖卷積模型防御方法、裝置和系統(tǒng)
- 一種基于骨架的雙流自適應(yīng)圖卷積網(wǎng)絡(luò)行為識別方法
- 一種基于時空圖卷積網(wǎng)絡(luò)的人臉檢測方法及裝置
- 一種基于權(quán)重不確定的圖卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)化方法、裝置
- 一種基于圖自編碼器的融合子空間聚類方法及系統(tǒng)
- 基于圖卷積神經(jīng)網(wǎng)絡(luò)交互的推薦方法及系統(tǒng)
- 硬件神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換方法、計算裝置、軟硬件協(xié)作系統(tǒng)
- 生成較大神經(jīng)網(wǎng)絡(luò)
- 神經(jīng)網(wǎng)絡(luò)的生成方法、生成裝置和電子設(shè)備
- 一種舌診方法、裝置、計算設(shè)備及計算機存儲介質(zhì)
- 學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
- 脈沖神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換方法及相關(guān)轉(zhuǎn)換芯片
- 圖像處理方法、裝置、可讀存儲介質(zhì)和計算機設(shè)備
- 一種適應(yīng)目標數(shù)據(jù)集的網(wǎng)絡(luò)模型微調(diào)方法、系統(tǒng)、終端和存儲介質(zhì)
- 用于重構(gòu)人工神經(jīng)網(wǎng)絡(luò)的處理器及其操作方法、電氣設(shè)備
- 一種圖像神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)化方法及裝置





