[發明專利]一種基于語義識別的自然語言處理方法、裝置和系統在審
| 申請號: | 202010955100.5 | 申請日: | 2020-09-11 |
| 公開(公告)號: | CN112000778A | 公開(公告)日: | 2020-11-27 |
| 發明(設計)人: | 汪秀英 | 申請(專利權)人: | 汪秀英 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/35;G06F40/30;G06N3/04 |
| 代理公司: | 長沙正務聯合知識產權代理事務所(普通合伙) 43252 | 代理人: | 鄭雋;吳婷 |
| 地址: | 410205 湖南省長沙市高新*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 語義 識別 自然語言 處理 方法 裝置 系統 | ||
本發明涉及一種語義識別的技術領域,揭露了一種基于語義識別的自然語言處理方法,包括:在知識庫中提取知識庫信息的知識特征詞向量;利用外部知識增強模型對所述知識特征詞向量進行知識增強處理;獲取待處理自然語言,基于知識特征詞向量分布從詞級別和句子級別進行待處理自然語言信息的整合;基于注意力機制對整合信息進行處理,得到待處理自然語言的語義特征;根據待處理自然語言的語義特征,利用多層感知機進行自然語言的分類處理。本發明還提供了一種基于語義識別的自然語言處理裝置及系統。本發明實現了自然語言的處理。
技術領域
本發明涉及自然語言處理技術領域,尤其涉及一種基于語義識別的自然語言處理方法、裝置和系統。
背景技術
作為人類幾千年知識與智慧的結晶,自然語言組織結構復雜,語義表達形式多樣。詞、短語、句子、段落、文章等都有其各自獨有的特點,同時彼此之間也存在著潛在的聯系。如何讓計算機來理解自然語言中的信息,是當前熱門的研究領域之一。
現有的自然語言處理策略主要有使用編碼器對句子進行編碼處理,并將編碼結果串聯起來進行分類,以及通過引入句間注意力機制,對文本中隱含的前提以及假設之間的關系進行編碼處理;但現有技術都只從訓練數據中學習推理知識,會受限于訓練數據集的規模,對文本中個別簡單詞匯的變化并不敏感,模型泛化能力不強。同時傳統基于分布式假設的詞向量表示方法用一個固定向量來表示語義信息,這會導致詞義模糊、表達不準確。
鑒于此,如何利用詞向量對自然語言的詞義進行準確表征,并基于詞向量對自然語言進行處理,成為本領域技術人員亟待解決的問題。
發明內容
本發明提供一種基于語義識別的自然語言處理方法,通過在知識庫中提取知識特征詞向量,并進行外部知識增強,對于待處理自然語言,基于知識庫的詞向量分別從詞級別和句子級別進行語義識別,根據語義識別結果進行自然語言的分類處理。
為實現上述目的,本發明提供的一種基于語義識別的自然語言處理方法,包括:
在知識庫中提取知識庫信息的知識特征詞向量;
利用外部知識增強模型對所述知識特征詞向量進行知識增強處理;
獲取待處理自然語言,基于知識特征詞向量分布從詞級別和句子級別進行待處理自然語言信息的整合;
基于注意力機制對整合信息進行處理,得到待處理自然語言的語義特征;
根據待處理自然語言的語義特征,利用多層感知機進行自然語言的分類處理。
可選地,所述提取知識庫信息的知識特征詞向量,包括:
1)若知識庫信息的上下文為w1,...,wj,...,wn,利用BiLSTM網絡對知識庫信息的上下文進行編碼,得到詞匯wj的上下文向量gj;
2)將gj作為概率預測器的輸入,由于每個詞匯可能會包含多個含義,本發明利用概率預測器得到上下文向量gj與詞匯含義ek之間的關聯度:
其中:
vk表示當前詞匯wj所包含的含義的200D嵌入向量;
bk為概率預測器的偏置向量;
σ為sigmoid激活函數;
3)進一步計算詞匯wj中各含義s與gj的匹配概率,從而得到知識庫信息中,當前語境下概率最大的含義smax:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于汪秀英,未經汪秀英許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010955100.5/2.html,轉載請聲明來源鉆瓜專利網。





