[發(fā)明專利]一種基于概念文本的詞向量快速生成方法和裝置有效
| 申請?zhí)枺?/td> | 202110592515.5 | 申請日: | 2021-05-28 |
| 公開(公告)號: | CN113268565B | 公開(公告)日: | 2022-03-25 |
| 發(fā)明(設(shè)計)人: | 孫宇清;潘韋;劉天元 | 申請(專利權(quán))人: | 山東大學 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F40/284;G06F40/30;G06N3/04;G06N3/08 |
| 代理公司: | 濟南竹森知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 37270 | 代理人: | 呂利敏;孫憲維 |
| 地址: | 250013 山*** | 國省代碼: | 山東;37 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 概念 文本 向量 快速 生成 方法 裝置 | ||
一種基于概念文本的詞向量快速生成方法,包括:對一段分好詞后的概念文本,單詞的組成字符以及每個單詞的詞性信息依次進行向量生成階段處理和語義聚合階段處理;其中,所述輸入信息在所述向量生成階段生成輸出信息,即分別生成針對單個概念文本的單詞向量;其中,針對同樣的單詞的多個概念文本的詞向量進行語義聚合,最終輸出綜合語義向量。本發(fā)明所使用的詞向量學習方法,可以脫離大規(guī)模學習語料,只使用少量的概念文本即可學習到能夠較好表示語義的分布式詞向量,針對專業(yè)領(lǐng)域新詞,能夠應(yīng)對關(guān)于新詞描述語料缺失的問題。
技術(shù)領(lǐng)域
本發(fā)明公開一種基于概念文本的詞向量快速生成方法和裝置,屬于自然語言處理的技術(shù)領(lǐng)域。
背景技術(shù)
單詞向量化是分詞任務(wù)完成后,使用深度學習模型完成自然語言處理高級任務(wù)的必要步驟。計算機只能處理數(shù)值,因此自然語言需要以一定的形式轉(zhuǎn)化為數(shù)值進行計算。一個單純的實數(shù)包含的信息太少,所以本技術(shù)領(lǐng)域一般映射為一個數(shù)值向量。因此,針對自然語言計算機化的進程包括:
起初都是采用獨熱編碼或統(tǒng)計學方式進行向量表示,但結(jié)果大都不理想。
后來分布式語義詞向量的提出,解決“詞匯鴻溝”問題,可以通過余弦相似度或歐式距離等方式計算,根據(jù)數(shù)值的大小判斷詞與詞之間的相關(guān)性。分布式語義詞向量的應(yīng)用在許多自然語言處理任務(wù)中顯示其優(yōu)點,它極大地提高了大多數(shù)自然語言任務(wù)的性能,例如文本分類,命名實體識別,機器翻譯和問題解答。
但是,存在一些出現(xiàn)頻率較低的通用詞匯,更多的是專業(yè)領(lǐng)域新詞,將其轉(zhuǎn)化為詞向量的形式存在一定的困難性。這些專業(yè)領(lǐng)域新詞通常是文本中的關(guān)鍵字,自然語言任務(wù)的性能可能會受到其沒有詞向量的影響,因此為了更好地理解文本的語義,有必要以有效的方式學習專業(yè)詞匯的詞向量。
目前主流的向量學習都是通過海量語料庫和預(yù)訓練的方式,通過大量的文本,模型可以有效的提取相關(guān)詞語的語義信息,但訓練時間較長,且只對頻率較高的詞匯向量具有較好的學習效果,對于某些詞匯出現(xiàn)的頻率較低,包含其相關(guān)的文本少之又少,如果仍按照傳統(tǒng)的詞向量生成方法學習,會造成語義理解相關(guān)方面的缺失,因此并不適用于頻率較低的詞匯,尤其是專業(yè)領(lǐng)域新詞的詞向量學習。因此需要一個方法可以通過少量包含某詞的語句來獲得語義較為充分的詞向量。
Yuval Pinter在2018年EMNLP會議的論文《Mimicking Word Embeddings usingSubword RNNs》中提出了一種通過單詞的組成字符來表示單詞詞向量的方法,文中使用單詞的構(gòu)成特征作為輸入并由雙向RNN組成的神經(jīng)網(wǎng)絡(luò)來訓練單詞向量模型,訓練后的向量和標準向量之間的余弦相似度作為目標函數(shù)。但是該論文只利用了單詞的組成字符,當面對組成字符與單詞毫無關(guān)系的詞匯時,例如“吲哚美辛”,每個字符和單詞表述的含義都無關(guān),這種情況模型效果就會較差。而本發(fā)明除了利用單詞的組成字符,還有概念文本及詞性信息,這些輔助信息的使用可以有效的避免上述缺點,提高效果。
發(fā)明內(nèi)容
發(fā)明概述
本發(fā)明所述一種基于概念文本的詞向量快速生成方法,旨在:用戶可以使用少量有關(guān)單詞的概念文本,獲得該單詞的詞向量,尤其是針對專業(yè)領(lǐng)域的新詞匯,即根據(jù)用戶采用不同概念文本的輸入,使用雙層注意力機制和語義聚合網(wǎng)絡(luò)充分提取語義信息,將上述語義信息輸出為綜合語義向量。
針對現(xiàn)有技術(shù)的問題,本發(fā)明公開一種基于概念文本的詞向量快速生成方法。
本發(fā)明還公開一種加載有上述方法的系統(tǒng)裝置。
本發(fā)明還公開一種加載有上述方法的電子設(shè)備。
本發(fā)明還公開一種加載有上述方法的計算機可讀存儲介質(zhì)。
本發(fā)明公開一種利用上述方法的應(yīng)用方法。
術(shù)語解釋:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于山東大學,未經(jīng)山東大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110592515.5/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





