[發明專利]一種基于依存詞匯關聯度的形容詞詞義消歧方法在審
| 申請號: | 201610048601.9 | 申請日: | 2016-01-26 |
| 公開(公告)號: | CN105718443A | 公開(公告)日: | 2016-06-29 |
| 發明(設計)人: | 鹿文鵬 | 申請(專利權)人: | 齊魯工業大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 250353 山東省濟南市西部*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 依存 詞匯 關聯 形容詞 詞義 方法 | ||
1.一種基于依存詞匯關聯度的形容詞詞義消歧方法,其特征在于:其具體操作步驟為:
步驟一、根據語義詞典,收集目標形容詞歧義詞wt各個詞義si的同義詞、近義詞、反義詞,構建相應詞義的相關詞集Wsi;具體為:
步驟1.1:根據WordNet,取詞義概念si的同義詞集;
步驟1.2:根據WordNet,取詞義概念si的近義詞集;
步驟1.3:根據WordNet,取詞義概念si的反義詞集;
步驟1.4:將步驟1.1~1.3所得的同義詞集、近義詞集、反義詞集合并,構建相應詞義的相關詞集Wsi;
步驟二、對目標歧義詞所在的句子進行依存句法分析,收集包含目標歧義詞的形容詞修飾及副詞修飾依存元組,提取相應的依存共現詞wamod和wadvmod;具體為:
步驟2.1:利用依存句法分析工具對目標歧義詞所在的句子進行依存句法分析,獲取其依存元組集合;
步驟2.2:由步驟2.1所得的依存元組集合,提取包含目標歧義詞的形容詞修飾及副詞修飾依存元組;
步驟2.3:由步驟2.2所得的依存元組,提取歧義詞的依存共現實詞wamod和wadvmod;
步驟三、對大規模語料進行依存句法分析,收集其中的依存共現詞對,構建依存共現詞對數據庫DB;具體為:
步驟3.1:利用依存句法分析工具對大規模文本語料進行依存句法分析,獲取其依存元組集合DSet;
步驟3.2:舍棄DSet中依存元組的依存關系類型信息,統計依存共現詞對,構建依存共現詞對數據庫DB;
步驟四、根據DB,計算目標歧義詞的各個詞義的依存詞匯關聯度;具體為:
步驟4.1:對于詞義si的相關詞集Wsi中的各個相關詞wsi,由公式(1),計算其與wamod、wadvmod的依存詞匯關聯度,即relatedness(wamod,wsi)及relatedness(wsi,wadvmod);
relatedness(w1,w2)=LLR(w1,w2)=2[LogL(p1,a,a+b)+LogL(p2,c,c+d)-LogL(p,a,a+b)-LogL(p,c,c+d)](1)
其中,
;
a=freq(w1,w2)表示支配詞是w1,且從屬詞是w2的依存元組的總數;
b=freq(w1,*)-a表示支配詞是w1,但從屬詞不是w2的依存元組的總數;
c=freq(*,w2)-a表示從屬詞是w2,但支配詞不是w1的依存元組的總數;
d=N-a-b-c表示支配詞不是w1并且從屬詞不是w2的依存元組的總數;
N表示語料庫所包含的全部依存元組的總數;
步驟4.2:由公式(2),計算詞義si與依存共現詞wamod和wadvmod的整體依存詞匯關聯度;
relatedness(si)=relatedness(wamod,Wsi)+relatedness(Wsi,wadvmod)(2)
其中,
;
;
Wsi表示由步驟一所獲得的詞義si的相關詞集;
步驟五、將整體依存詞匯關聯度最大的詞義判定為正確詞義;具體為:
比較由步驟4.2所獲得的各個詞義的整體依存詞匯關聯度,將依存詞匯關聯度最大的詞義判定為歧義詞的正確詞義;
經過以上步驟的操作,即可判定形容詞歧義詞的詞義,完成詞義消歧任務。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于齊魯工業大學,未經齊魯工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610048601.9/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種數據建模的方法
- 下一篇:一種格式化Webservice報文的方法





