[發明專利]一種中文詞義表示學習方法及裝置在審
| 申請號: | 202010517766.2 | 申請日: | 2020-06-09 |
| 公開(公告)號: | CN111783418A | 公開(公告)日: | 2020-10-16 |
| 發明(設計)人: | 張世琨;張通;葉蔚;張君福;趙文;胡文蕙 | 申請(專利權)人: | 北京北大軟件工程股份有限公司 |
| 主分類號: | G06F40/205 | 分類號: | G06F40/205;G06F40/247;G06F40/30 |
| 代理公司: | 北京細軟智谷知識產權代理有限責任公司 11471 | 代理人: | 譚承世 |
| 地址: | 100089 北京市海淀區北四環西路67號中關*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 中文 詞義 表示 學習方法 裝置 | ||
1.一種中文詞義表示學習方法,其特征在于,包括:
獲取訓練語料,生成全局上下文矩陣;
對HowNet知識庫進行解析,生成詞義-詞相似度矩陣;
根據所述全局上下文矩陣和詞義-詞相似度矩陣,計算生成全局詞義上下文向量;
對所述全局詞義上下文向量進行詞義軟消歧;
采用基于注意力拓展的跳字模型對詞義向量進行訓練,輸出詞義向量。
2.根據權利要求1所述的學習方法,其特征在于,
在語料庫中獲取訓練語料。
3.根據權利要求2所述的學習方法,其特征在于,所述生成全局上下文矩陣,包括:
對訓練語料進行清洗,構建詞典;
生成每個詞的全局上下文向量;
組合每個詞的上下文向量,生成全局上下文矩陣;
對所述矩陣進行降采樣和歸一化處理。
4.根據權利要求3所述的學習方法,其特征在于,所述對語料庫進行清洗,構建詞典,包括:
對訓練語料進行過濾,刪除其中的非中文字符;
對過濾后的訓練語料進行處理構建詞典,詞典中保留詞頻大于50的詞;
將保留在詞典中的每個詞在語料庫中的上下文詞進行統計,得到詞袋。
5.根據權利要求1所述的學習方法,其特征在于,所述對HowNet知識庫進行解析,生成詞義-詞相相似度矩陣,包括:
對HowNet知識庫進行解析,計算每個詞義之間的相似度;
根據每個詞義之間的相似度計算詞義和每個詞之間的相似度,生成詞義-詞相似度矩陣。
6.根據權利要求5所述的學習方法,其特征在于,所述計算每個詞義之間的相似度,包括:
計算HowNet知識庫中定義的每一個詞義之間的距離;
根據每個詞和詞義之間的距離生成詞義-詞相似度。
7.根據權利要求1所述的學習方法,其特征在于,所述對所述全局詞義上下文矩陣進行詞義軟消歧,包括:
采用注意力機制計算每個詞義的注意力權重;
根據每個詞義的注意力權重進行軟消歧。
8.一種中文詞義表示學習裝置,其特征在于,包括:
第一生成模塊,用于獲取訓練語料,生成全局上下文矩陣;
第二生成模塊,用于對HowNet知識庫進行解析,生成詞義-詞相似度矩陣;
計算模塊,用于根據所述全局上下文矩陣和詞義-詞相似度矩陣,計算生成全局詞義上下文向量;
消歧模塊,用于對所述全局詞義上下文向量進行詞義軟消歧;
輸出模塊,用于采用基于注意力拓展的跳字模型對詞義軟消歧后的詞義向量進行訓練,輸出詞義向量。
9.根據權利要求8所述的學習裝置,其特征在于,
在語料庫中獲取訓練語料。
10.根據權利要求8所述的學習裝置,其特征在于,所述生成全局上下文矩陣,包括:
對語料庫進行清洗,構建詞典;
生成每個詞的全局上下文向量;
組合每個詞的上下文向量,生成全局上下文矩陣;
對所述矩陣進行降采樣和歸一化處理。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京北大軟件工程股份有限公司,未經北京北大軟件工程股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010517766.2/1.html,轉載請聲明來源鉆瓜專利網。





