[發明專利]一種融合句子局部上下文與文檔領域信息的詞義消歧方法有效
| 申請號: | 201610033097.5 | 申請日: | 2016-01-19 |
| 公開(公告)號: | CN105740225B | 公開(公告)日: | 2019-02-01 |
| 發明(設計)人: | 鹿文鵬;孟凡擎;杜月寒 | 申請(專利權)人: | 齊魯工業大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 濟南信達專利事務所有限公司 37100 | 代理人: | 孫園園 |
| 地址: | 250353 山東省濟南市西部*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 融合 句子 局部 上下文 文檔 領域 信息 詞義 方法 | ||
本發明涉及一種融合句子局部上下文與文檔領域信息的詞義消歧方法,屬于自然語言處理技術領域。其步驟為:①對歧義詞所在的句子進行依存句法分析,獲得與歧義詞具有直接依存關系的句子局部上下文相關詞;②對領域文檔集合進行依存句法分析,收集其所包含的全部的依存元組,構建依存元組庫;③對依存元組庫進行統計分析,找到與歧義詞關系最為密切的一組領域相關詞;④根據領域相關詞的依存分布相似度及其與局部上下文的詞義相關度,確定其消歧權重;⑤將句子局部上下文相關詞和領域相關詞合并,構建相關詞集合;⑥根據歧義詞的各個詞義與相關詞集合的加權累加相關度,判定正確詞義。本發明公開的方法能夠提高詞義消歧系統在特定領域上的適應性,提高消歧正確率。
技術領域
本發明涉及到一種詞義消歧方法,特別涉及一種融合句子局部上下文與文檔領域信息的詞義消歧方法,屬于自然語言處理技術領域。
背景技術
自然語言處理系統普遍存在“領域失配”問題,詞義消歧也不例外。同樣的方法對于不同的領域,往往性能差異很大。在大規模詞義消歧任務中,其所需處理的文本的領域類型千差萬別。如果詞義消歧系統無法主動適應文本領域的差別,其消歧性能將大打折扣。“領域適應”已成為制約特定領域上詞義消歧性能提高的關鍵問題。面向特定領域的詞義消歧已得到了自然語言處理領域研究者的關注。
面向特定領域的詞義消歧方法主要包括有監督的方法和基于知識庫的方法。有監督的方法主要針對擴充有效的消歧特征和降低詞義標注工作量而展開;這只能減輕對訓練語料的部分依賴,面對有監督方法對訓練語料的海量需求,顯然無法從根本上解決困擾有監督方法的數據稀疏問題。基于知識庫的方法的研究主要圍繞領域信息的挖掘和利用而展開;為目標領域收集密切相關的詞語作為領域信息,為詞義消歧系統提供更多的消歧特征。但現有方法對領域信息的挖掘利用并不充分,尚不能將領域信息與歧義詞所在句子的局部上下文信息充分融合。
發明內容
本發明的目的是為了克服現有詞義消歧技術所面臨的“領域失配”問題,主要針對基于知識庫的詞義消歧方法的領域信息的挖掘和利用問題,提出一種新的融合句子局部上下文與文檔領域信息的詞義消歧方法。
本發明的目的是通過如下技術方案實現的。
一種融合句子局部上下文與文檔領域信息的詞義消歧方法,其具體操作步驟如下。
步驟一、對歧義詞所在的句子進行依存句法分析,獲得與歧義詞具有直接依存關系的句子局部上下文相關詞;具體如下。
步驟1.1:用符號S表示待處理的句子;用符號wt表示目標歧義詞。
步驟1.2:對句子S進行預處理,主要包括去除亂碼字符、特殊符號等,獲得預處理后的句子S’。
步驟1.3:使用依存句法分析器,對句子S’進行依存句法分析;并對句子中的詞語進行詞形還原;獲得其依存元組集合Rs。
步驟1.4:從依存元組集合Rs中,提取出包含wt的依存元組,并將wt的依存詞提取出來,篩選其中的實詞,構建句子局部上下文相關詞集合C。
步驟二、對領域文檔集合進行依存句法分析,收集其所包含的全部的依存元組,構建依存元組庫;具體如下。
步驟2.1:根據歧義詞所在文檔的領域類型Domain,收集隸屬于該領域的文檔,構建領域文檔集合DSet。
步驟2.2:對領域文檔集合DSet中的文檔逐個進行依存句法分析,獲得其依存元組集合,構建依存元組庫DependSet。
步驟三、對依存元組庫進行統計分析,找到與歧義詞關系最為密切的一組領域相關詞;具體如下。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于齊魯工業大學,未經齊魯工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610033097.5/2.html,轉載請聲明來源鉆瓜專利網。





