[發(fā)明專利]一種監(jiān)督的詞向量學(xué)習(xí)方法有效
| 申請(qǐng)?zhí)枺?/td> | 201811075603.2 | 申請(qǐng)日: | 2018-09-14 |
| 公開(公告)號(hào): | CN109271632B | 公開(公告)日: | 2023-05-26 |
| 發(fā)明(設(shè)計(jì))人: | 覃勛輝;杜若;向海;侯聰;劉科 | 申請(qǐng)(專利權(quán))人: | 重慶邂智科技有限公司 |
| 主分類號(hào): | G06F40/284 | 分類號(hào): | G06F40/284;G06N3/084 |
| 代理公司: | 重慶強(qiáng)大凱創(chuàng)專利代理事務(wù)所(普通合伙) 50217 | 代理人: | 趙玉乾 |
| 地址: | 401120 重慶市渝北區(qū)金開*** | 國(guó)省代碼: | 重慶;50 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 監(jiān)督 向量 學(xué)習(xí)方法 | ||
本發(fā)明申請(qǐng)公開了一種監(jiān)督的詞向量學(xué)習(xí)方法,涉及自然語言處理方法領(lǐng)域,包括以下步驟:步驟一,通過在word2vec神經(jīng)網(wǎng)絡(luò)模型的基礎(chǔ)上增加詞關(guān)系分類模型,搭建深度學(xué)習(xí)網(wǎng)絡(luò)模型;步驟二,將多個(gè)相鄰的輸入詞向量和某一指定詞向量輸入到深度學(xué)習(xí)網(wǎng)絡(luò)模型中進(jìn)行多任務(wù)學(xué)習(xí);步驟三,重復(fù)步驟四,進(jìn)行迭代計(jì)算,得到優(yōu)化后的word2vec神經(jīng)網(wǎng)絡(luò)模型和詞關(guān)系分類模型。本發(fā)明申請(qǐng)能夠在計(jì)算得到詞向量的同時(shí),得到該詞向量與指定詞向量之間的關(guān)系。
技術(shù)領(lǐng)域
本發(fā)明涉及自然語言處理方法領(lǐng)域,具體涉及一種監(jiān)督的詞向量學(xué)習(xí)方法。
背景技術(shù)
詞向量(word?embedding),詞的向量表征,是自然語言處理中常見的一個(gè)操作,是搜索引擎、廣告系統(tǒng)、推薦系統(tǒng)等互聯(lián)網(wǎng)服務(wù)背后常見的基礎(chǔ)技術(shù)。
詞向量,可以簡(jiǎn)單理解為將詞進(jìn)行向量化表示,實(shí)體的抽象成了數(shù)學(xué)描述,例如一個(gè)詞:“蘋果”,將其表示成[0.4,0.5,0.9,...],“香蕉”:[0.3,0.8,0.1,...],向量的不同維度用來表征不同特征,不同維度上就代表著不同的語義。
自然語言處理(natural?language?processing,縮寫作NLP)是人工智能和語言學(xué)領(lǐng)域的分支學(xué)科。此領(lǐng)域探討如何處理及運(yùn)用自然語言,讓電腦“懂”人類的語言,把計(jì)算機(jī)數(shù)據(jù)轉(zhuǎn)化為自然語言,把自然語言轉(zhuǎn)化為計(jì)算機(jī)程序更易于處理的形式。
現(xiàn)在自然語言處理,包括多種方式,其中,word2vec是現(xiàn)在比較通用的用來進(jìn)行自然語言處理的系列模型。Word2vec依賴skip-grams或連續(xù)詞袋(CBOW)來建立神經(jīng)詞嵌入,利用神經(jīng)網(wǎng)絡(luò)模型得到詞向量。相比于skip-grams,CBOW更加符合在日常溝通中將自然語言與機(jī)器語言進(jìn)行互換的要求。
雖然word2vec能夠進(jìn)行自然語言處理,但是卻經(jīng)常出現(xiàn)詞語歧義和語句不通的情況,究其原因,是因?yàn)閃ord2vec無監(jiān)督機(jī)制,word2vec考慮的僅僅是詞和周圍詞之間的關(guān)系,當(dāng)兩個(gè)同義詞的周圍詞不同時(shí),這兩個(gè)同義詞訓(xùn)練出的詞向量當(dāng)然也大不相同。通過大語料的word2vec學(xué)習(xí)出的詞向量,在詞向量空間中離給定詞距離較近的有:同義詞、同位詞、上下位詞、相關(guān)詞等,但word2vec并不能區(qū)分這些關(guān)系。而很多NLP任務(wù)需要這類詞與詞的關(guān)系,但是現(xiàn)有的學(xué)習(xí)方法中獲得的詞向量不具備這樣的功能。
發(fā)明內(nèi)容
本發(fā)明意在提供一種監(jiān)督的詞向量學(xué)習(xí)方法,不僅能夠得到自然語言對(duì)應(yīng)的詞向量還能預(yù)測(cè)兩個(gè)詞向量之間關(guān)系。
本方案中監(jiān)督的詞向量學(xué)習(xí)方法,包括以下步驟:
步驟一,通過在word2vec神經(jīng)網(wǎng)絡(luò)模型的基礎(chǔ)上增加詞關(guān)系分類模型,搭建深度學(xué)習(xí)網(wǎng)絡(luò)模型;
步驟二,將多個(gè)相鄰的輸入詞向量和某一指定詞向量輸入到深度學(xué)習(xí)網(wǎng)絡(luò)模型中進(jìn)行多任務(wù)學(xué)習(xí);
步驟三,重復(fù)步驟四,進(jìn)行迭代計(jì)算,得到優(yōu)化后的word2vec神經(jīng)網(wǎng)絡(luò)模型和詞關(guān)系分類模型。
本發(fā)明的優(yōu)點(diǎn)在于:
本發(fā)明提出一種基于詞和詞關(guān)系的有監(jiān)督式的詞向量生成方法。該方法在現(xiàn)有的word2vec基礎(chǔ)上,增加了用來計(jì)算詞和詞關(guān)系的詞關(guān)系分類模型,采用神經(jīng)網(wǎng)絡(luò)多任務(wù)學(xué)習(xí)的機(jī)制同時(shí)學(xué)習(xí)詞向量和詞詞關(guān)系。訓(xùn)練完成后,不僅能夠得到詞所對(duì)應(yīng)的詞向量,而且能夠預(yù)測(cè)兩個(gè)詞的詞關(guān)系。這種詞關(guān)系在自然語言的文本相似度計(jì)算、信息檢索等多個(gè)技術(shù)領(lǐng)域都有非常重要的作用。
另外,在訓(xùn)練過程中告訴神經(jīng)網(wǎng)絡(luò)詞的先驗(yàn)知識(shí),有助于消除低頻詞的學(xué)習(xí)不充分的情況。
進(jìn)一步,在步驟一之前,將語料文本分詞,建立詞表和與詞表對(duì)應(yīng)的初始詞向量。
通過收集語料,建立詞表和初始詞向量來對(duì)新建的深度學(xué)習(xí)網(wǎng)絡(luò)模型進(jìn)行初始訓(xùn)練。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于重慶邂智科技有限公司,未經(jīng)重慶邂智科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811075603.2/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 在即時(shí)通信中提供即時(shí)監(jiān)督功能的方法及系統(tǒng)
- 一種監(jiān)督事件的生成裝置
- 一種資產(chǎn)托管監(jiān)督任務(wù)的處理方法及裝置
- 一種監(jiān)督方法及裝置
- 基于自監(jiān)督學(xué)習(xí)的標(biāo)簽比例學(xué)習(xí)模型的訓(xùn)練方法和設(shè)備
- 一種衛(wèi)生監(jiān)督對(duì)象尋址方法、電子設(shè)備及存儲(chǔ)介質(zhì)
- 一種機(jī)器人表情調(diào)用方法和家用機(jī)器人
- 計(jì)算機(jī)視覺訓(xùn)練系統(tǒng)和用于訓(xùn)練計(jì)算機(jī)視覺系統(tǒng)的方法
- 一種基于廠區(qū)智能管理系統(tǒng)的工廠設(shè)備監(jiān)督系統(tǒng)
- 信息化綜合監(jiān)督系統(tǒng)及方法
- 移動(dòng)向量解碼方法和移動(dòng)向量解碼裝置
- 一種用于支持向量機(jī)的在線向量選取方法
- 用于在幀序列中執(zhí)行運(yùn)動(dòng)估計(jì)的數(shù)據(jù)處理系統(tǒng)和方法
- 神經(jīng)網(wǎng)絡(luò)的處理方法及裝置、存儲(chǔ)介質(zhì)、電子設(shè)備
- 字符序列處理方法及設(shè)備
- 向量獲取方法、裝置、電子設(shè)備以及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 向量獲取方法、裝置、電子設(shè)備以及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 近鄰向量的召回方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 一種向量運(yùn)算裝置及運(yùn)算方法
- 生成類別向量的方法和裝置
- 數(shù)字學(xué)習(xí)方法及執(zhí)行此數(shù)字學(xué)習(xí)方法的攜帶式電子裝置
- 一種響應(yīng)式教學(xué)設(shè)計(jì)方法及系統(tǒng)
- 一種神經(jīng)網(wǎng)絡(luò)及該神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)方法
- 一種高光譜遙感影像目標(biāo)探測(cè)方法
- 一種八維學(xué)習(xí)方法
- 一種自適應(yīng)學(xué)習(xí)特征及其張量分解式分享學(xué)習(xí)方法
- 生成模型學(xué)習(xí)方法、生成模型學(xué)習(xí)裝置及程序
- 一種高精度定位系統(tǒng)及方法
- 學(xué)習(xí)方法、管理裝置和記錄介質(zhì)
- 一種基于圖像屬性特征表述的少樣本學(xué)習(xí)方法





