[發(fā)明專(zhuān)利]模型訓(xùn)練和詞向量確定方法、裝置、設(shè)備、介質(zhì)和產(chǎn)品有效
| 申請(qǐng)?zhí)枺?/td> | 202110277972.5 | 申請(qǐng)日: | 2021-03-15 |
| 公開(kāi)(公告)號(hào): | CN113011177B | 公開(kāi)(公告)日: | 2023-09-29 |
| 發(fā)明(設(shè)計(jì))人: | 馬超;張敬帥;黃啟帆;姚開(kāi)春;王鵬;祝恒書(shū) | 申請(qǐng)(專(zhuān)利權(quán))人: | 北京百度網(wǎng)訊科技有限公司 |
| 主分類(lèi)號(hào): | G06F40/284 | 分類(lèi)號(hào): | G06F40/284;G06F40/216;G06F40/30;G06N3/08 |
| 代理公司: | 北京市金杜律師事務(wù)所 11256 | 代理人: | 趙林琳;辛鳴 |
| 地址: | 100094 北京市*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 模型 訓(xùn)練 向量 確定 方法 裝置 設(shè)備 介質(zhì) 產(chǎn)品 | ||
本公開(kāi)提供了一種模型訓(xùn)練和詞向量確定方法、裝置、設(shè)備、介質(zhì)和產(chǎn)品,可以用于自然語(yǔ)言處理領(lǐng)域和信息處理領(lǐng)域等領(lǐng)域中。該方法包括:獲取與第一詞集合對(duì)應(yīng)的第一詞向量集合;以及針對(duì)第一詞向量集合中的每個(gè)詞向量,基于詞嵌入模型生成降低維度的詞向量,基于降低維度的詞向量生成第一詞向量集合中的其他詞向量在第一詞向量集合中的第一概率分布,以及調(diào)整詞嵌入模型的參數(shù),使得第一概率分布與通過(guò)第一詞向量集合中的詞向量的數(shù)量確定的其他詞向量的第二概率分布的差別盡可能小。利用上述方法,可以基于相關(guān)聯(lián)的、包括在語(yǔ)言學(xué)上不具有順序關(guān)系的詞的多個(gè)語(yǔ)料進(jìn)行詞嵌入,因此能夠增進(jìn)詞嵌入的效率和提高詞嵌入的效果,從而能夠提升用戶(hù)體驗(yàn)。
技術(shù)領(lǐng)域
本公開(kāi)涉及計(jì)算機(jī)技術(shù),并且更具體地,涉及模型訓(xùn)練方法、詞向量確定方法、裝置、電子設(shè)備、計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)和計(jì)算機(jī)程序產(chǎn)品,可以用于自然語(yǔ)言處理領(lǐng)域和信息處理領(lǐng)域等領(lǐng)域中。
背景技術(shù)
詞嵌入是自然語(yǔ)言處理中對(duì)諸如技能詞的詞進(jìn)行表征的技術(shù)。從概念上而言,它是指把一個(gè)維數(shù)為所有詞的數(shù)量的詞的高維空間嵌入到一個(gè)維數(shù)低得多的詞的連續(xù)向量空間中,每個(gè)詞被映射為實(shí)數(shù)域上的向量。很多下游任務(wù)都可以使用詞嵌入向量作為輸入,因此詞嵌入的質(zhì)量很大程度上影響了下游任務(wù)的效果。下游任務(wù)例如可以包括機(jī)器學(xué)習(xí)任務(wù)簡(jiǎn)歷分類(lèi)任務(wù)、簡(jiǎn)歷評(píng)估任務(wù)、人崗匹配任務(wù)、招投標(biāo)任務(wù)等任務(wù)。
然而,傳統(tǒng)的用于詞嵌入的技術(shù)無(wú)論是在模型訓(xùn)練的效率還是模型訓(xùn)練的效果方面都存在不足。
發(fā)明內(nèi)容
根據(jù)本公開(kāi)的實(shí)施例,提供了一種模型訓(xùn)練方法、詞向量確定方法、裝置、電子設(shè)備、計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)和計(jì)算機(jī)程序產(chǎn)品。
在本公開(kāi)的第一方面中,提供了一種模型訓(xùn)練方法,包括:獲取與第一詞集合對(duì)應(yīng)的第一詞向量集合,第一詞集合來(lái)自第一語(yǔ)料,并且第一詞集合中的詞在語(yǔ)言學(xué)上不具有順序關(guān)系;以及針對(duì)第一詞向量集合中的每個(gè)詞向量,基于詞嵌入模型生成降低維度的詞向量,基于降低維度的詞向量生成第一詞向量集合中的其他詞向量在第一詞向量集合中的第一概率分布,以及調(diào)整詞嵌入模型的參數(shù),使得使用經(jīng)調(diào)整的詞嵌入模型生成的第一概率分布與通過(guò)第一詞向量集合中的詞向量的數(shù)量確定的其他詞向量的第二概率分布的差別盡可能小。
在本公開(kāi)的第二方面中,提供了一種詞向量確定方法,包括使用根據(jù)本公開(kāi)的第一方面而被訓(xùn)練的詞嵌入模型,針對(duì)詞向量確定降低維度的詞向量。
在本公開(kāi)的第三方面中,提供了一種模型訓(xùn)練裝置,包括:第一詞向量集合獲取模塊,被配置為獲取與第一詞集合對(duì)應(yīng)的第一詞向量集合,第一詞集合來(lái)自第一語(yǔ)料,并且第一詞集合中的詞在語(yǔ)言學(xué)上不具有順序關(guān)系;以及第一參數(shù)調(diào)整模塊,被配置為針對(duì)第一詞向量集合中的每個(gè)詞向量,基于詞嵌入模型生成降低維度的詞向量,基于降低維度的詞向量生成第一詞向量集合中的其他詞向量在第一詞向量集合中的第一概率分布,以及調(diào)整詞嵌入模型的參數(shù),使得使用經(jīng)調(diào)整的詞嵌入模型生成的第一概率分布與通過(guò)第一詞向量集合中的詞向量的數(shù)量確定的其他詞向量的第二概率分布的差別盡可能小。
在本公開(kāi)的第四方面中,提供了一種詞向量確定裝置,被配置為使用由根據(jù)本公開(kāi)的第三方面的模型訓(xùn)練裝置訓(xùn)練的詞嵌入模型,針對(duì)詞向量確定降低維度的詞向量。
在本公開(kāi)的第五方面中,提供了一種電子設(shè)備,包括至少一個(gè)處理器;以及與至少一個(gè)處理器通信連接的存儲(chǔ)器;其中存儲(chǔ)器存儲(chǔ)有可被至少一個(gè)處理器執(zhí)行的指令,該指令被至少一個(gè)處理器執(zhí)行,以使至少一個(gè)處理器能夠?qū)崿F(xiàn)根據(jù)本公開(kāi)的第一方面的方法。
在本公開(kāi)的第六方面中,提供了一種電子設(shè)備,包括至少一個(gè)處理器;以及與至少一個(gè)處理器通信連接的存儲(chǔ)器;其中存儲(chǔ)器存儲(chǔ)有可被至少一個(gè)處理器執(zhí)行的指令,該指令被至少一個(gè)處理器執(zhí)行,以使至少一個(gè)處理器能夠?qū)崿F(xiàn)根據(jù)本公開(kāi)的第二方面的方法。
在本公開(kāi)的第七方面中,提供了一種存儲(chǔ)有計(jì)算機(jī)指令的非瞬時(shí)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),計(jì)算機(jī)指令用于使計(jì)算機(jī)實(shí)現(xiàn)根據(jù)本公開(kāi)的第一方面的方法。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于北京百度網(wǎng)訊科技有限公司,未經(jīng)北京百度網(wǎng)訊科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110277972.5/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 等級(jí)精細(xì)視力訓(xùn)練表
- 視覺(jué)盲點(diǎn)演示與旁中心注視訓(xùn)練儀
- 一種訓(xùn)練室
- 視覺(jué)盲點(diǎn)演示與旁中心注視訓(xùn)練儀
- 一種訓(xùn)練室
- 康復(fù)訓(xùn)練器及其定量訓(xùn)練方法和定量訓(xùn)練裝置
- 一種分布式訓(xùn)練中梯度同步方法及裝置
- 訓(xùn)練模型的訓(xùn)練時(shí)長(zhǎng)預(yù)測(cè)方法及裝置
- 一種模型訓(xùn)練方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種計(jì)算機(jī)輔助的自閉癥兒童情感社交康復(fù)訓(xùn)練系統(tǒng)
- 移動(dòng)向量解碼方法和移動(dòng)向量解碼裝置
- 一種用于支持向量機(jī)的在線向量選取方法
- 用于在幀序列中執(zhí)行運(yùn)動(dòng)估計(jì)的數(shù)據(jù)處理系統(tǒng)和方法
- 神經(jīng)網(wǎng)絡(luò)的處理方法及裝置、存儲(chǔ)介質(zhì)、電子設(shè)備
- 字符序列處理方法及設(shè)備
- 向量獲取方法、裝置、電子設(shè)備以及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 向量獲取方法、裝置、電子設(shè)備以及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 近鄰向量的召回方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 一種向量運(yùn)算裝置及運(yùn)算方法
- 生成類(lèi)別向量的方法和裝置





