[發明專利]一種基于循環神經網絡與潛變量結構的詞語定義生成方法有效
| 申請號: | 201910365929.7 | 申請日: | 2019-04-30 |
| 公開(公告)號: | CN110083710B | 公開(公告)日: | 2021-04-02 |
| 發明(設計)人: | 杜永萍;張海同;王辰成 | 申請(專利權)人: | 北京工業大學 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06K9/62;G06N3/04 |
| 代理公司: | 北京思海天達知識產權代理有限公司 11203 | 代理人: | 吳蔭芳 |
| 地址: | 100124 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 循環 神經網絡 變量 結構 詞語 定義 生成 方法 | ||
本發明涉及一種基于循環神經網絡與潛變量結構的詞語定義生成方法,屬于自然語言處理領域。本發明在基于循環神經網絡的基礎上利用變分自編碼器(VAE)對釋義進行建模,結合潛變量特征,根據被定義詞的上下文信息對詞義進行提取來生成詞語的釋義,具體包括:建立并整理基礎語料庫;選取被定義詞語的近義詞集合,擴展基礎語料庫,形成最終語料庫;對被定義詞語的詞向量進行擴展重構;構建基于循環神經網絡與潛變量結構模型;訓練基于循環神經網絡與潛變量結構模型;將待釋義詞語及其上下文信息輸入訓練完成的模型中,實現具體語境中待釋義詞語的語義釋義,解決一詞多義問題。
技術領域
本發明涉及一種基于循環神經網絡與潛變量結構的詞語定義生成方法,屬于自然語言處理領域。
背景技術
英語學習型詞典是指專為母語是非英語的學習者設計,力圖幫助學習者正確理解并運用英語的工具書。目前大多數英語學習型詞典的詞語定義存在循環釋義,用詞太難等問題,不利于使用者的理解。
定義生成(Definition Generation)的主要任務是自動的生成詞語的自然語言釋義,從而縮減人工編纂詞典的時間和成本,涉及語言學(Linguistics)、自然語言處理(Natural Language Processing)、人工智能(Artificial Intelligence)等眾多領域。
詞向量,即分布式的詞表示,采用低維稠密的向量來表示詞匯。在詞相似等任務中詞向量能夠捕獲詞匯之間的語義關系。
詞相似:通過計算兩個詞語的詞向量的相似度來衡量兩個詞語的相似性,主要方法包括余弦相似度(Cosine)、歐氏距離(Euclidean)、曼哈頓距離(Manhattan Distance)、皮爾遜相關系數(Pearson Correlation Coefficient)等。
定義生成研究基于詞向量表示是否可以生成對應詞語的自然語言釋義。相比于詞相似等任務,它是詞向量所捕獲的語法和語義信息更直接的表示和驗證。
圖1為目前的定義生成方法示意圖。目前的定義生成方法大多基于循環神經網絡語言模型。如圖1所示,將被定義詞輸入到循環神經網絡中,神經網絡輸出一個詞語的概率分布和隱藏表示,從概率分布中進行采樣得到概率最高的詞語作為該時刻的生成詞,和隱藏表示一起送到下一個時刻的循環神經網絡中,循環往復,直到生成停止標識。
長短期記憶網絡(LSTM)是一種特殊結構的循環神經網絡,可以學習序列的長期依賴信息。在每一個時刻t上,LSTM接收該時刻的輸入x以及t-1刻的隱藏狀態ht-1輸出該時刻的輸出y以及一個新的隱藏狀態ht。
門控循環單元(GRU)是LSTM的一種變體,它將LSTM的忘記門和輸入門合成了一個單一的更新門。GRU在保持LSTM效果的同時又使得模型的結構更加簡單。
現有方法在定義生成過程中僅僅利用被定義詞的信息,有一定的局限性,不能充分的結合上下文信息,即該詞在語境中的含義,因此不能考慮到一詞多義的問題。
發明內容
為了彌補現有方法的不足,本發明在輸入時不僅利用被定義詞,同時輸入該詞的上下文信息去進行詞語的定義生成。本發明在基于循環神經網絡的基礎上利用變分自編碼器 (VAE)對釋義進行建模,結合潛變量特征,根據被定義詞的上下文信息對詞義進行提取來生成詞語的釋義,彌補了現有方法不能結合語境的缺點,從而解決了一詞多義的問題。
本發明提供一種結合上下文信息與潛變量結構的詞語定義生成方法,包括:上下文語義提取器、釋義變分自編碼器、釋義生成解碼器。
所述上下文語義提取器用于根據被定義詞的上下文信息來提取被定義詞詞向量在相關語境中的含義。
所述釋義變分自編碼器對釋義進行建模,提取釋義的潛變量特征,彌補定義生成時信息不足的問題,同時在生成定義時為模型提供釋義的結構信息。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京工業大學,未經北京工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910365929.7/2.html,轉載請聲明來源鉆瓜專利網。





