[發明專利]一種中文詞義表示學習方法及裝置在審
| 申請號: | 202010517766.2 | 申請日: | 2020-06-09 |
| 公開(公告)號: | CN111783418A | 公開(公告)日: | 2020-10-16 |
| 發明(設計)人: | 張世琨;張通;葉蔚;張君福;趙文;胡文蕙 | 申請(專利權)人: | 北京北大軟件工程股份有限公司 |
| 主分類號: | G06F40/205 | 分類號: | G06F40/205;G06F40/247;G06F40/30 |
| 代理公司: | 北京細軟智谷知識產權代理有限責任公司 11471 | 代理人: | 譚承世 |
| 地址: | 100089 北京市海淀區北四環西路67號中關*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 中文 詞義 表示 學習方法 裝置 | ||
本發明涉及一種中文詞義表示學習方法及裝置,包括獲取訓練語料,生成全局上下文矩陣;對HowNet知識庫進行解析,生成詞義?詞相似度矩陣;根據所述全局上下文矩陣和詞義?詞相似度矩陣,計算生成全局詞義上下文向量;對所述全局詞義上下文向量進行詞義軟消歧;采用基于注意力拓展的跳字模型對詞義軟消歧后的詞義向量進行訓練,輸出詞義向量。本發明通過提出的上下文軟消歧機制,能夠捕捉詞的真正詞義,提高深度學習模型在下游任務的效果。
技術領域
本發明屬于人工智能技術領域,具體涉及一種中文詞義表示學習方法及裝置。
背景技術
分布式詞表示在自然語言處理中是重要的基礎研究方向。通過大規模語料來預訓練詞的分布式表示并將該表示作為神經網絡的輸入是深度學習中的通用基礎方法。分布式詞表示的主要思想是,將每個詞映射到一個連續的低維語義空間,該空間中具有相似語義的詞距離相近。分布式詞表示最經典,最常用的工作是Word2vec[1]和GloVe,它們分別利用利用上下文詞的預測和共現矩陣的分解[2]來學習詞的分布式表示。其中,谷歌提出的Word2vec包含兩個模型,分別是跳字模型(Skip-gram)和連續詞袋模型(CBOW)。Skip-gram模型利用中心詞預測上下文詞,而CBOW模型利用上下文詞預測中心詞。之后的很多詞表示學習工作和變種都是基于這兩種模型進行的。
傳統的詞表示學習一個很大的局限性在于無法對一個詞的多個詞意進行獨立的表示。在中文里存在很多多義詞,例如“蘋果”既可以表示一種水果,同時也可以表示一個手機品牌。在分布式詞表示中,一個詞無論是否是多義詞都會用一個單獨的向量來進行表示。然而,用一個單獨的向量無法捕捉一個詞的不同詞義,這會帶來詞義的混合缺陷問題,并將影響語義空間的有效性。
發明內容
有鑒于此,本發明的目的在于克服現有技術的不足,提供一種中文詞義表示學習方法及裝置,以解決現有技術中用一個單獨的向量無法捕捉一個詞的不同詞義,造成詞義的混合缺陷,且會影響語義空間的有效性的問題。
為實現以上目的,本發明采用如下技術方案:一種中文詞義表示學習方法,包括:
獲取訓練語料,生成全局上下文矩陣;
對HowNet知識庫進行解析,生成詞義-詞相似度矩陣;
根據所述全局上下文矩陣和詞義-詞相似度矩陣,計算生成全局詞義上下文向量;
對所述全局詞義上下文向量進行詞義軟消歧;
采用基于注意力拓展的跳字模型對詞義軟消歧后的詞義向量進行訓練,輸出詞義向量。
進一步的,在語料庫中獲取訓練語料。
進一步的,所述生成全局上下文矩陣,包括:
對訓練語料進行清洗,構建詞典;
生成每個詞的全局上下文向量;
組合每個詞的上下文向量,生成全局上下文矩陣;
對所述矩陣進行降采樣和歸一化處理。
進一步的,所述對語料庫進行清洗,構建詞典,包括:
對訓練語料進行過濾,刪除其中的非中文字符;
對過濾后的訓練語料進行處理構建詞典,詞典中保留詞頻大于50的詞;
將保留在詞典中的每個詞在語料庫中的上下文詞進行統計,得到詞袋。
進一步的,所述對HowNet知識庫進行解析,生成詞義-詞相相似度矩陣,包括:
對HowNet知識庫進行解析,計算每個詞義之間的相似度;
根據每個詞義之間的相似度計算詞義和每個詞之間的相似度,生成詞義-詞相似度矩陣。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京北大軟件工程股份有限公司,未經北京北大軟件工程股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010517766.2/2.html,轉載請聲明來源鉆瓜專利網。





