[發明專利]一種基于短語結構句法樹的英文詞義消歧方法在審
| 申請號: | 201610011045.8 | 申請日: | 2016-01-10 |
| 公開(公告)號: | CN105677639A | 公開(公告)日: | 2016-06-15 |
| 發明(設計)人: | 鹿文鵬;成金勇;張維玉 | 申請(專利權)人: | 齊魯工業大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 250353 山東省濟南*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 短語 結構 句法 英文 詞義 方法 | ||
技術領域
本發明涉及到一種英文詞義消歧方法,特別涉及一種基于短語結構句法樹的英文 詞義消歧方法,屬于自然語言處理技術領域。
背景技術
詞義消歧是指根據歧義詞所處的上下文環境判斷其正確的詞義。詞義是構成一個 句子含義的基本單位,是理解一個句子的前提。詞義消歧屬于自然語言處理領域的基礎性 任務,在機器翻譯、信息檢索、文本分類、問答系統等領域具有廣泛的應用需求。
歧義詞的詞義由其所處的上下文環境而確定。能否準確地選擇上下文詞義相關 詞,將直接影響詞義消歧系統的性能。現有的詞義消歧方法通常利用上下文滑動窗口來選 擇上下文相關詞,即以歧義詞為中心選擇左右一定距離以內的詞語。這種方法只考慮了詞 語在句子中的直接距離,而未考慮詞語的語法、語義關系。這種方法無法濾除近距離的噪聲 詞,也容易遺漏遠距離的相關詞。
歧義詞的詞義通常通過比較各詞義與上下文詞義相關詞的密切程度而確定。能否 準確地計算密切程度,對詞義消歧系統的性能具有決定性影響。不同距離的相關詞對歧義 詞詞義的影響程度并不相同,需要賦予適當的消歧權重。現有的詞義消歧方法通常將上下 文詞義相關詞的權重視為同等的,這無法體現不同距離詞語的權重差異,難以準確評估詞 義與上下文詞義相關詞的密切程度。
鑒于上述問題,本申請提出一種基于短語結構句法樹的英文詞義消歧方法,該方 法可以充分利用短語結構句法樹來進行詞義相關詞的篩選并為其賦予消歧權重,根據詞義 與上下文詞義相關詞的密切程度而判斷正確詞義。
發明內容
本發明的目的是為了克服現有詞義消歧技術的不足,主要解決上下文詞義相關詞 的篩選及賦權和詞義相關度的計算問題,提出了一種新的基于短語結構句法樹的英文詞義 消歧方法。
本發明的目的是通過如下技術方案實現的。
一種基于短語結構句法樹的英文詞義消歧方法,其具體操作步驟如下。
步驟一、通過對句子進行短語結構句法分析,生成其短語結構句法樹;具體如下。
步驟1.1:用符號S表示待處理的句子。
步驟1.2:對句子S進行預處理,主要包括去除亂碼字符、特殊符號、英文斷詞 (Tokenization)等,獲得預處理后的句子S’。
步驟1.3:使用短語結構句法分析器,對句子S’進行短語結構句法分析,生成短語 結構句法樹T。
步驟1.4:對短語結構句法樹T中的詞語進行詞形還原。
步驟二、以短語結構句法樹為依據,計算歧義詞與句子中其它詞語的層次距離和 路徑距離,篩選出詞義相關詞;具體如下。
步驟2.1:用符號wt表示待消歧的歧義詞,用符號w表示句子中的其它詞語,用符號 W表示句子中除歧義詞wt之外的全部實詞的集合。
步驟2.2:由短語結構句法樹T,統計歧義詞wt與其它詞語w的層次距離dl,將dl記入 w,并保存到W中。
步驟2.3:由短語結構句法樹T,統計歧義詞wt與其它詞語w的路徑距離dp,將dp記入 w,并保存到W中。
步驟2.4:指定層次距離參數d_layer和路徑距離參數d_path,從W中篩選dl不大于 d_layer并且dp不大于d_path的詞語,構建歧義詞的詞義相關詞集合R。
步驟三、構建詞義消歧模型,通過評估歧義詞的各個詞義與詞義相關詞的密切程 度而判定正確詞義;具體如下。
步驟3.1:對于詞義相關詞集合R中的每個詞語w,根據其層次距離dl和路徑距離dp, 由公式(1)計算其消歧權重。
(1)
其中,α和β為層次距離dl和路徑距離dp的調節參數。
步驟3.2:對于歧義詞wt的每個詞義si,由公式(2)計算其與詞義相關詞集R的密切 程度。
(2)
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于齊魯工業大學,未經齊魯工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610011045.8/2.html,轉載請聲明來源鉆瓜專利網。





