[發(fā)明專利]詞嵌入模型的訓(xùn)練方法及裝置有效
| 申請?zhí)枺?/td> | 201811083305.8 | 申請日: | 2018-09-17 |
| 公開(公告)號: | CN109308354B | 公開(公告)日: | 2019-08-27 |
| 發(fā)明(設(shè)計)人: | 李健銓;劉小康;陳瑋 | 申請(專利權(quán))人: | 北京神州泰岳軟件股份有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 北京弘權(quán)知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11363 | 代理人: | 逯長明;許偉群 |
| 地址: | 100089 北京市海淀區(qū)*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 近義詞 嵌入 目標(biāo)詞 輸入詞 矩陣 向量 獲取目標(biāo) 訓(xùn)練樣本 詞向量 嵌入的 向量化 預(yù)測 地被 紊亂 更新 移動 申請 | ||
本申請實施例公開一種詞嵌入模型的訓(xùn)練方法及裝置,該方法包括:利用詞嵌入矩陣,將訓(xùn)練樣本的輸入詞向量化表示為第一向量;根據(jù)所述第一向量得到預(yù)測詞;利用所述預(yù)測詞,以及所述輸入詞所對應(yīng)的真實詞,更新輸入詞在詞嵌入矩陣中所對應(yīng)的參數(shù);獲取目標(biāo)詞的近義詞集,所述目標(biāo)詞包括所述輸入詞或所述真實詞;以及,更新近義詞集中的至少一個近義詞在詞嵌入矩陣中對應(yīng)的參數(shù),以縮短所述至少一個近義詞與所述目標(biāo)詞之間的距離。通過這樣的方法不斷訓(xùn)練,使每一個目標(biāo)詞的近義詞集中的至少一個近義詞都朝著該目標(biāo)詞移動,進(jìn)而使一個詞的近義詞與其反義詞能夠較容易地被區(qū)分開,以此減輕詞嵌入的極性問題,同時也不會導(dǎo)致整個詞向量空間紊亂。
技術(shù)領(lǐng)域
本發(fā)明涉及自然語言處理技術(shù)領(lǐng)域,具體涉及一種詞嵌入模型的訓(xùn)練方法及裝置。
背景技術(shù)
在自然語言處理(Natural Language Processing,NLP)領(lǐng)域,詞的表示方法有獨熱表示(one-hot representation)和分布式表示(distributed representation)兩大類,其中,分布式表示是基于分布假說(Distributional Hypothesis),它的核心思想由兩部分組成:一、選擇一種方式描述上下文;二、選擇一種模型來刻畫某個詞(即中心詞)與其上下文之間的關(guān)系。根據(jù)建模的不同,詞的分布式表示主要可以分為三類:基于矩陣的分布表示、基于聚類的分布表示和基于神經(jīng)網(wǎng)絡(luò)的分布表示。其中,基于神經(jīng)網(wǎng)絡(luò)的分布式表示一般也被稱為詞嵌入(word embedding),主要是通過神經(jīng)網(wǎng)絡(luò)技術(shù)對中心詞的上下文,以及上下文與中心詞之間的關(guān)系進(jìn)行建模。詞嵌入是一種低維實數(shù)向量,例如[0.792,-0.177,-0.107,0.109,-0.542,…],其維度可以是50維、100維等。
連續(xù)詞袋模型(Continuous Bag of Words Model,CBOW)和Skip-gram模型是Mikolov等人提出的神經(jīng)網(wǎng)絡(luò)語言模型,可以用來訓(xùn)練以得到語料庫中每一個詞的詞嵌入。CBOW是統(tǒng)計語言模型的一種,請參考圖1,其主要思想是根據(jù)中心詞(w(t))的上下文,即中心詞前面的C個詞(例如w(t-2)、w(t-1)等)以及后面的C個詞(例如w(t+1)、w(t+2)等),來計算中心詞的概率。與CBOW相反,請參考圖2,Skip-Gram模型的主要思想是根據(jù)中心詞(w(t))來分別計算它前后的詞(例如w(t-2)、w(t-1)、w(t+1)、w(t+2)等)的概率。
但是,采用CBOW、Skip-gram模型等訓(xùn)練出來的詞嵌入在表示能力上還存在缺陷,極性問題較為嚴(yán)重。具體來說,當(dāng)計算兩個詞的相似度時,通常是將兩個詞各自的詞嵌入代入到歐式距離或者余弦距離的公式中來計算。但是無論是采用歐式距離還是余弦距離來表示兩個詞的相似度,經(jīng)常會出現(xiàn)這樣的錯誤——語義相反的詞之間的距離反而比語義一致的詞之間的距離更近。例如“開心”與“快樂”的語義一致,利用CBOW、Skip-gram模型等訓(xùn)練得到的詞嵌入來計算二者的語義相似度P1;“開心”與“不開心”的語義相反,同樣利用利用CBOW、Skip-gram模型等訓(xùn)練得到的詞嵌入來計算二者的語義相似度P2。理應(yīng)P1>P2,但實際計算出來卻可能是P1<P2。
由于采用CBOW、Skip-gram模型等訓(xùn)練出來的詞嵌入存在這樣的極性問題,進(jìn)而導(dǎo)致進(jìn)行文本語義匹配、文本分類等處理的時候容易出錯,匹配到完全不同的句子,或者將語義相反的兩個文本分類到同一個類別中,這是本領(lǐng)域技術(shù)人員亟待解決的問題。
發(fā)明內(nèi)容
為解決上述技術(shù)問題,本申請?zhí)峁┮环N新的詞嵌入模型的訓(xùn)練方法,可以局部調(diào)整一個詞的至少一個近義詞與其之間的距離。通過這樣的方法訓(xùn)練得到的詞嵌入矩陣,能夠更好地區(qū)分近義詞和反義詞,從而有效地減輕詞嵌入的極性問題。
第一方面,本申請?zhí)峁┮环N詞嵌入模型的訓(xùn)練方法,包括以下步驟:
利用詞嵌入矩陣,將訓(xùn)練樣本的輸入詞向量化表示為第一向量;
根據(jù)所述第一向量得到預(yù)測詞;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京神州泰岳軟件股份有限公司,未經(jīng)北京神州泰岳軟件股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811083305.8/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 具有聯(lián)想功能的輸入方法
- 輸入提示方法、裝置及字典樹模型的創(chuàng)建方法、裝置
- 預(yù)測用戶待輸入詞的方法及裝置
- 一種用戶詞庫優(yōu)化方法、裝置及電子設(shè)備
- 一種提供搜索輸入聯(lián)想詞的方法、裝置及電子設(shè)備
- 輸入聯(lián)想詞的構(gòu)建方法、裝置、存儲介質(zhì)及電子設(shè)備
- 人機(jī)交互方法、裝置、設(shè)備及系統(tǒng)
- 聯(lián)想詞的推薦方法、裝置、計算機(jī)設(shè)備和存儲介質(zhì)
- 一種基于用戶輸入行為特征的安全認(rèn)證方法及系統(tǒng)
- 關(guān)鍵詞識別方法、裝置、設(shè)備及介質(zhì)





