[發明專利]聯合詞性與詞序的相關因子訓練的word2vec改進方法有效
| 申請號: | 201710791297.1 | 申請日: | 2017-09-05 |
| 公開(公告)號: | CN107526834B | 公開(公告)日: | 2020-10-23 |
| 發明(設計)人: | 于重重;曹帥;潘博;張青川 | 申請(專利權)人: | 北京工商大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/30;G06K9/62 |
| 代理公司: | 北京萬象新悅知識產權代理有限公司 11360 | 代理人: | 黃鳳茹 |
| 地址: | 100048 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 聯合 詞性 詞序 相關 因子 訓練 word2vec 改進 方法 | ||
本發明公布了一種聯合詞性與詞序的相關因子訓練的word2vec改進方法,提出Structured word2vec on POS模型,包括CWindow?POS(CWP)模型和Structured Skip gram?POS(SSGP)模型,兩個模型均將詞性標注信息與詞語順序作為影響因素聯合優化,利用詞性關聯信息對上下文窗口內詞語之間的固有句法關系進行建模;通過詞性關聯權重對上下文詞語序列進行加權計算,再按詞語位置順序進行向量內積計算,使用隨機梯度下降(SGD)算法聯合學習相關權重和word embedding。本發明將詞語按其位置順序定向嵌入,實現了對詞向量和詞性相關加權矩陣進行的聯合優化;在詞語類比任務、詞語相似性任務與定性分析都具有高效性。
技術領域
本發明屬于機器學習技術領域,涉及word2vec方法,尤其涉及一種聯合詞性與詞序的相關因子訓練的word2vec改進方法,該方法提出Structured word2vec on POS模型,不僅可以感知詞語位置順序,將詞語按其位置順序定向嵌入,而且利用詞性關聯信息來建立上下文窗口內詞語之間的固有句法關系;實現對詞向量和詞性相關加權矩陣進行聯合優化。
背景技術
詞性是自然語言處理的基本要素,詞語順序包含了所傳達的語義與語法信息,它們都是自然語言中的關鍵信息。在word embedding模型中如何有效地將兩者結合起來,是目前研究的重點。語言的語義向量空間模型用實值向量表示每個詞語,而詞向量可以作為許多應用中的特征,例如文獻分類,自動問答,命名實體識別和形態相關詞解析。詞向量的表示效果通常用文獻[1]記載的Mikolov等人的詞語類比任務進行評估:通過檢查詞語向量之間的標量距離,檢測出詞語向量空間中更精細的結構關系。例如,類比“king is toqueen as man is towoman”應該通過向量方程式king-queen=man-woman編碼在向量空間中。文獻[2]指出這種評價方案有利于產生有意義維度的模型,從而捕獲分布式表示的多聚類概念。因此,研究人員使用詞語類比任務作為詞語向量的主要評估方法。
隨著深度神經網絡學習的發展,文獻[3]記載的Bengio提出的神經網絡語言模型(Neural Network Language Model,NNLM)逐漸受到研究者們的關注與重視。文獻[4]和[5]記載了將其應用于自然語言處理領域:如循環神經網絡語言模型(Recurrent NeuralNetworks language model,RNNLM)。NNLM與RNNLM模型的缺陷在于結構過于復雜,其中非線性的隱層帶來大量的計算。針對這個問題,文獻[6]中,Mikolov提出了word2vec的兩種簡化的線性模型: Continuous Bag-of-Words Model(CBOW)和Continuous Skip-gram(CSG)。在CBOW與CSG的線性結構基礎上,文獻[7]中,Kavukcuoglu等人提出了相似模型vLBL和ivLBL。文獻[8]中, Levy等人提出基于PPMI度量的explicit word embeddings模型。文獻[9]中,Jeffrey等人提出了一種基于全局信息的詞語表示模型GloVe,其將局部上下文窗口與矩陣分解的方法有效結合起來,建立word-word同窗共現計數矩陣,從而利用矩陣進行全局優化。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京工商大學,未經北京工商大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710791297.1/2.html,轉載請聲明來源鉆瓜專利網。





