[發明專利]基于實時學習的融合型詞義嵌入方法有效
| 申請號: | 201910839702.1 | 申請日: | 2019-09-06 |
| 公開(公告)號: | CN110705274B | 公開(公告)日: | 2023-03-24 |
| 發明(設計)人: | 桂盛霖;方丹 | 申請(專利權)人: | 電子科技大學 |
| 主分類號: | G06F40/284 | 分類號: | G06F40/284;G06F16/35 |
| 代理公司: | 電子科技大學專利中心 51203 | 代理人: | 周劉英 |
| 地址: | 611731 四川省成*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 實時 學習 融合 詞義 嵌入 方法 | ||
本發明公開了一種基于實時學習的融合型詞義嵌入方法,屬于詞向量的自動生成技術領域。本發明基于其所設置神經網絡語言模型,基于其投影輸出得到當前待進行詞義嵌入處理的詞的詞義向量;該神經網絡語言模型的網絡結構的輸入層,用于獲取當前詞k在預置的詞向量矩陣V中的對應向量;投影層,用于對當前詞k進行判斷,若其為單義詞,則做恒等投影,k在預置的詞向量矩陣V中的對應向量作為投影層輸出;若其為多義詞,則通過基于實時學習的詞義識別算法獲取其對應的詞義向量,投影層輸出為該獲取的詞義向量。本發明利用實時學習的方法實現對多義詞的詞義向量的計算和生成,在保證詞義向量計算效率的前提下,提高生成向量的質量。
技術領域
本發明屬于詞向量的自動生成技術領域,具體涉及基于實時學習的融合型詞義嵌入方法。
背景技術
在自然語言處理(NLP)相關任務中,由于機器無法直接理解分析人類語言,通常都需要將自然語言進行建模后再作為輸入提供給計算機。詞向量(Word Representation)即是將人類語言中的詞語轉化為抽象表示的產物,目前常用的詞向量共有兩類:
One-Hot Representation:生成這種類型詞向量首先需要對語料中的所有詞進行統計,生成詞表N及每個詞的唯一編號。對于某個詞而言,其對應生成的詞向量長度為|N|,詞向量中詞編號對應位置為1,其余位置為0。這種向量表示的問題在于其占用空間大,導致后續計算量高,并且這種詞向量無法對詞語之間的關系進行刻畫。
Distributed Representation:這種詞向量的產生克服了One-HotRepresentation的缺點。Distributed Representation將詞語表示為稠密的向量。這種向量的生成通常是某種語言模型訓練的副產物,通過對語料庫的訓練,將語料庫中的詞語映射到詞向量空間,向量之間的關系即為詞語語義,詞法關系的體現。從而詞語語義的相似度可以由詞向量值的近似程度來表示。
目前對于詞向量生成的處理按照詞向量對應的語言單位的粒度可以分為:
(1)詞嵌入:將自然語言中的詞語表示為計算機能夠處理的向量數據。
(2)詞義嵌入:將自然語言中的詞語所具有的具體語義表示為計算機能夠處理的向量數據。
詞義嵌入是針對詞嵌入類模型的一個主要缺陷:無法準確表達多義詞詞義的問題,逐漸形成的一種對語義更加敏感的詞向量生成模型。詞義嵌入類模型對于多義詞會根據其在語料庫中出現的語義情況生成多個詞向量以對應其多個語義,采用這種嵌入模型可以對詞語進行語義級更精準的描述。目前,詞義嵌入類模型主要有兩種類型:雙階段型和融合型。雙階段類型指詞義識別和詞向量生成的過程是串行分離的。融合型模型則是在詞向量生成過程中完成了詞義識別。
Schutze在1998年最早提出了進行上下文分組識別,采用計算最大期望的方法進行聚類來識別詞義再進行詞義向量的生成。后續雙階段模型的思路基本類似,通常在詞義識別算法或文本建模方面有所不同與優化。2010年,Reisinger和Moone將上下文表示為一元語法的特征向量采用MovFV聚類的方法來完成詞義識別。Sense2vec工具采用了詞性信息來達到詞義分離的效果,缺點是未考慮到部分多義詞多個詞義的詞義可能相同。融合型模型則是利用詞義識別和詞向量生成都是對文本上下文進行計算的共通性,融合兩個過程以減小計算消耗。Neelakantan在Word2vec模型上進行擴展為每個多義詞準備固定個數向量在訓練過程中選擇合適的向量進行更新,缺點在于不同多義詞的詞義數量往往不是相同的,限制性較大。Yang Liu等人則優化了詞向量生成僅利用局部信息的缺陷,提出TWE模型,在過程中加入了主題信息建模信息。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于電子科技大學,未經電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910839702.1/2.html,轉載請聲明來源鉆瓜專利網。





