[發明專利]一種融合句子局部上下文與文檔領域信息的詞義消歧方法有效
| 申請號: | 201610033097.5 | 申請日: | 2016-01-19 |
| 公開(公告)號: | CN105740225B | 公開(公告)日: | 2019-02-01 |
| 發明(設計)人: | 鹿文鵬;孟凡擎;杜月寒 | 申請(專利權)人: | 齊魯工業大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 濟南信達專利事務所有限公司 37100 | 代理人: | 孫園園 |
| 地址: | 250353 山東省濟南市西部*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 融合 句子 局部 上下文 文檔 領域 信息 詞義 方法 | ||
1.一種融合句子局部上下文與文檔領域信息的詞義消歧方法,其特征在于包括以下步驟:
步驟一、對歧義詞所在的句子進行依存句法分析,獲得與歧義詞具有直接依存關系的句子局部上下文相關詞;具體如下:
步驟1.1:用符號S表示待處理的句子;用符號wt表示目標歧義詞;
步驟1.2:對句子S進行預處理,主要包括去除亂碼字符、特殊符號,獲得預處理后的句子S’;
步驟1.3:使用依存句法分析器,對句子S’進行依存句法分析;并對句子中的詞語進行詞形還原;獲得其依存元組集合Rs;
步驟1.4:從依存元組集合Rs中,提取出包含wt的依存元組,并將wt的依存詞提取出來,篩選其中的實詞,構建句子局部上下文相關詞集合C;
步驟二、對領域文檔集合進行依存句法分析,收集其所包含的全部的依存元組,構建依存元組庫;具體如下:
步驟2.1:根據歧義詞所在文檔的領域類型Domain,收集隸屬于該領域的文檔,構建領域文檔集合DSet;
步驟2.2:對領域文檔集合DSet中的文檔逐個進行依存句法分析,獲得其依存元組集合,構建依存元組庫DependSet;
步驟三、對依存元組庫進行統計分析,找到與歧義詞關系最為密切的一組領域相關詞;具體如下:
步驟3.1:借助于Lin DeKang提出的依存分布相似度的概念,根據公式(1)計算歧義詞wt與其它詞語w的依存分布相似度,并降序排列,記入鏈表DList;
其中,(w,r,x)表示一個依存元組,w表示支配詞,r表示依存關系的類型,x表示從屬詞;
步驟3.2:取鏈表DList的top-N個詞語,作為與歧義詞wt最為密切的一組領域相關詞,構建領域相關詞集合D;
步驟四、根據領域相關詞的依存分布相似度及其與局部上下文的詞義相關度,確定其消歧權重;具體如下:
步驟4.1:由公式(2),計算領域相關詞wi與句子局部上下文相關詞集合C的詞義相關度;
其中,wi表示某個特定的領域相關詞,C表示句子局部上下文相關詞的集合,simi(wi,cj)表示wi與某個局部上下文相關詞cj的相關度;
步驟4.2:結合公式(1)與公式(2),由公式(3)和公式(4)確定領域相關詞wi的消歧權重;
mixrela(wi)=rela(wi,C)×dss(wt,wi)(4)
其中,wi表示某個特定的領域相關詞,D表示領域相關詞的集合;
步驟五、將句子局部上下文相關詞和領域相關詞合并,構建相關詞集合;具體如下:
將各個句子局部上下文相關詞cj的消歧權重均置為1,將cj加入相關詞集合R;將各個領域相關詞wi加入相關詞集合R;即R=C∪D;
步驟六、根據歧義詞的各個詞義與相關詞集合的加權累加相關度,判定正確詞義;具體如下:
步驟6.1:根據公式(5),由相關詞集合,計算各個詞義與相關詞集合的相關度,并根據相關詞的消歧權重進行加權累加,獲得各個詞義的整體相關度;
其中,si表示某一特定詞義,wj表示某一個相關詞,R表示全部相關詞集合,senses(wt)表示歧義詞wt的全部詞義的集合;simi(si,wj)表示詞義si與相關詞wj的相關度,其計算方法同步驟4.1;
步驟6.2:將與相關詞集合整體相關度最高的詞義,判定為正確詞義;
經過以上步驟的操作,即可判定歧義詞的詞義,完成詞義消歧任務。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于齊魯工業大學,未經齊魯工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610033097.5/1.html,轉載請聲明來源鉆瓜專利網。





