[發明專利]漢語依存樹庫中未登錄詞的處理方法有效
| 申請號: | 201210344884.3 | 申請日: | 2012-09-17 |
| 公開(公告)號: | CN103678272A | 公開(公告)日: | 2014-03-26 |
| 發明(設計)人: | 呂學強;鄭略省;王玥;關曉炟 | 申請(專利權)人: | 北京信息科技大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100192 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 漢語 依存 樹庫中未 登錄 處理 方法 | ||
技術領域
本發明涉及一種對漢語依存語法樹庫中未登錄詞的處理方法,通過樹庫已知詞實現對未登錄詞的理解,屬于計算語言學中的自然語言處理領域。
背景技術
句法分析是自然語言處理的核心問題之一,其性能的好壞,直接影響到自然語言句子自動理解的正確性和有效性。依存句法分析比結構化句法分析更容易處理,近年來受到了人們的廣泛關注。目前許多國家正建立和發展自己語言的樹庫,隨著詞匯本身強大的排歧能力漸漸被挖掘出來,越來越多的依存句法分析統計模型趨于詞匯化。
詞匯是最有區別力的信息,語言在詞匯層面幾乎沒有歧義。詞匯以及詞匯之間的依存,包含著極豐富的表征信息,這使得越來越多的句法分析器趨向于詞匯化。但詞匯化建模中存在的難點是詞匯信息的數據稀疏問題,目前主要采用詞性信息進行平滑,如將詞單元對<詞,詞>回退為<詞,詞性>、<詞性,詞>、<詞性,詞性>。但由于詞性標記的數量少,信息粒度較粗,不可避免地會產生大量的句法歧義。
現有樹庫規模較小,實際應用中存在大量未在樹庫中出現的詞匯,也即未登錄詞。這使得依存句法分析無法利用這些詞的詞匯信息,從而降低句法分析的精確度,嚴重阻礙了句法分析的發展。目前在英文方面主要趨向兩種方式解決未登錄詞問題:花費大量人力、物力擴大樹庫規模;利用現有資源,實現同一類別詞匯相互間的映射轉換。在中文方面主要采用詞性信息平滑技術,但存在信息粒度粗,句法歧義大的缺陷。因此,迫切地需要一種針對漢語特點的樹庫未登錄詞處理方法,以解決樹庫中數據稀疏和信息粒度粗的問題,提高句法分析精確度。
發明內容
為了解決依存句法分析中樹庫數據稀疏問題以及采用詞性信息平滑帶來的信息粒度粗等問題,本發明提供了一種漢語依存樹庫中未登錄詞的處理方法,實現樹庫未登錄詞與已知詞的映射轉換,在不擴大數據規模的情況下,令單元對<詞性,詞性>可以回升到<詞性,詞>或<詞,詞性>,以細化信息粒度,緩解數據稀疏問題,改進依存句法分析的性能。
為了達到上述目的,本發明提供一種依存樹庫中未登錄詞的處理方法,具體步驟包括:
A、利用同義詞詞林,查找未登錄詞的所有同義詞;
B、根據漢語字形特征,設計詞語之間的字形相似度計算模型,計算未登錄詞及其所有同義詞之間的字形相似度;
C、對于未登錄詞存在多個同義詞與之映射時,抽取所映射的詞及其對應詞性的信息量,改進字形相似度計算模型;
D、根據字形相似度,抽取最優映射詞。
其中,步驟A具體為:根據哈工大信息檢索研究室《同義詞詞林》擴展版的編碼方式,抽取與未登錄詞5層編碼均相等的所有詞匯,作為同義詞。
步驟B,利用漢字是象形文字,其字形和字義的聯系密切的特點。同時,漢字字庫相對比較穩定,構詞頻率高的常用字約3,000字,總數也就2萬多個字,絕大多數的新詞也是由現有的字庫組成的。因此將全體漢字用一個向量表示,向量的維數即為全體漢字數目,向量的值或者說權重為某一特定單元中漢字出現的次數;
設n為全體漢字字數,sw表示單個漢字,則全體漢字的向量表示:?(sw1,sw2,…,swn)。
為此,詞匯的字形相似度計算模型:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京信息科技大學,未經北京信息科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210344884.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種信息關聯的方法及裝置
- 下一篇:一種信息處理方法和裝置





