[發明專利]一種基于依存詞匯關聯度的形容詞詞義消歧方法在審
| 申請號: | 201610048601.9 | 申請日: | 2016-01-26 |
| 公開(公告)號: | CN105718443A | 公開(公告)日: | 2016-06-29 |
| 發明(設計)人: | 鹿文鵬 | 申請(專利權)人: | 齊魯工業大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 250353 山東省濟南市西部*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 依存 詞匯 關聯 形容詞 詞義 方法 | ||
技術領域
本發明涉及到一種形容詞詞義消歧方法,特別涉及到一種基于依存詞匯關聯度的形容詞詞義消歧方法,屬于自然語言處理技術領域。
背景技術
自然語言中普遍存在一詞多義的現象。詞義消歧即指根據多義詞所處的上下文環境自動確定其詞義。詞義消歧屬于自然語言處理領域的底層研究,對機器翻譯、信息檢索、信息抽取、情感分析、輿情監測等均具有直接影響。
詞義消歧方法可劃分有監督方法、無監督方法和基于知識庫的方法。有監督方法利用詞義分類器來進行詞義的判定;無監督方法主要通過對歧義詞的上下文詞語進行聚類而對詞義進行分類;基于知識庫的方法根據上下文環境,利用知識庫來判定歧義詞的詞義。有監督方法需要大量的詞義標注語料以訓練詞義分類器,這嚴重制約了其應用范圍;無監督方法本質上是一種詞義辨析方法,并不能真正應用于大規模詞義消歧任務;基于知識庫的方法需要使用大量的知識庫,知識庫的優劣直接影響其消歧能力。其中,基于知識庫的方法是目前唯一能夠真正應用于大規模詞義消歧任務的方法。
基于知識庫的方法需要結合歧義詞的上下文環境,依據其知識庫判定歧義詞的詞義。現有方法通常利用滑動窗口來進行上下文的選擇,這難免會引入一些無關的噪聲詞;現有方法使用的知識庫通常是人工構建的,其成本高昂,不易于擴展;現有方法往往并不區分歧義詞的詞性,未能充分利用不同詞性歧義詞的自身特征。
發明內容
本發明的目的是為了克服現有技術的不足,主要解決形容詞的詞義消歧問題,提出一種基于依存詞匯關聯度的形容詞詞義消歧方法。
本發明的目的是通過如下技術方案實現的。
一種基于依存詞匯關聯度的形容詞詞義消歧方法,其具體操作步驟如下。
步驟一、根據語義詞典,收集目標形容詞歧義詞wt各個詞義si的同義詞、近義詞、反義詞,構建相應詞義的相關詞集Wsi;具體如下。
步驟1.1:根據WordNet,取詞義概念si的同義詞集。
步驟1.2:根據WordNet,取詞義概念si的近義詞集。
步驟1.3:根據WordNet,取詞義概念si的反義詞集。
步驟1.4:將步驟1.1~1.3所得的同義詞集、近義詞集、反義詞集合并,構建相應詞義的相關詞集Wsi。
步驟二、對目標歧義詞所在的句子進行依存句法分析,收集包含目標歧義詞的形容詞修飾及副詞修飾依存元組,提取相應的依存共現詞wamod和wadvmod;具體如下。
步驟2.1:利用依存句法分析工具對目標歧義詞所在的句子進行依存句法分析,獲取其依存元組集合。
步驟2.2:由步驟2.1所得的依存元組集合,提取包含目標歧義詞的形容詞修飾及副詞修飾依存元組。
步驟2.3:由步驟2.2所得的依存元組,提取歧義詞的依存共現實詞wamod和wadvmod。
步驟三、對大規模語料進行依存句法分析,收集其中的依存共現詞對,構建依存共現詞對數據庫DB;具體如下。
步驟3.1:利用依存句法分析工具對大規模文本語料進行依存句法分析,獲取其依存元組集合DSet。
步驟3.2:舍棄DSet中依存元組的依存關系類型信息,統計依存共現詞對,構建依存共現詞對數據庫DB。
步驟四、根據DB,計算目標歧義詞的各個詞義的依存詞匯關聯度;具體如下。
步驟4.1:對于詞義si的相關詞集Wsi中的各個相關詞wsi,由公式(1),計算其與wamod、wadvmod的依存詞匯關聯度,即relatedness(wamod,wsi)及relatedness(wsi,wadvmod)。
relatedness(w1,w2)=LLR(w1,w2)=2[LogL(p1,a,a+b)+LogL(p2,c,c+d)-LogL(p,a,a+b)-LogL(p,c,c+d)](1)
其中,
;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于齊魯工業大學,未經齊魯工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610048601.9/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種數據建模的方法
- 下一篇:一種格式化Webservice報文的方法





