[發(fā)明專利]一種自然語言文本和數(shù)學(xué)語言文本的混合詞嵌入方法在審
| 申請(qǐng)?zhí)枺?/td> | 202210469691.4 | 申請(qǐng)日: | 2022-04-28 |
| 公開(公告)號(hào): | CN114818698A | 公開(公告)日: | 2022-07-29 |
| 發(fā)明(設(shè)計(jì))人: | 董石;唐家玉;陶雪云;王志鋒;田元;陳加;陳迪;左明章 | 申請(qǐng)(專利權(quán))人: | 華中師范大學(xué) |
| 主分類號(hào): | G06F40/289 | 分類號(hào): | G06F40/289;G06F40/30;G06F16/35;G06N3/08 |
| 代理公司: | 武漢科皓知識(shí)產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙) 42222 | 代理人: | 羅飛 |
| 地址: | 430079 湖*** | 國(guó)省代碼: | 湖北;42 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 自然語言 文本 數(shù)學(xué) 語言 混合 嵌入 方法 | ||
本發(fā)明提供了一種自然語言文本和數(shù)學(xué)語言文本的混合詞嵌入方法,包括:對(duì)混合文本進(jìn)行識(shí)別和預(yù)處理,得到由文本和數(shù)學(xué)表達(dá)式組成的數(shù)學(xué)資源數(shù)據(jù)集;對(duì)具有樹形結(jié)構(gòu)的數(shù)學(xué)表達(dá)式進(jìn)行位置編碼,保持樹形結(jié)構(gòu)的相對(duì)位置平移不變;對(duì)具有線性結(jié)構(gòu)特征的文本和具有樹形結(jié)構(gòu)特征的數(shù)學(xué)表達(dá)式進(jìn)行統(tǒng)一位置編碼;將相對(duì)位置編碼送入預(yù)訓(xùn)練模型的注意力模塊,采用掩蔽語言模型和下句預(yù)測(cè)兩個(gè)標(biāo)準(zhǔn)預(yù)訓(xùn)練任務(wù)對(duì)數(shù)學(xué)資源進(jìn)行預(yù)訓(xùn)練,預(yù)訓(xùn)練完成后,每個(gè)符號(hào)均可得到富含上下文信息的嵌入向量表示。
技術(shù)領(lǐng)域
本發(fā)明涉及自然語言處理技術(shù)領(lǐng)域,尤其涉及一種自然語言文本和數(shù)學(xué)語言文本的混合詞嵌入方法。
背景技術(shù)
數(shù)學(xué)文本是指包含數(shù)學(xué)表達(dá)式的自然語言文本,具有多義性和多態(tài)性的特征,廣泛出現(xiàn)于STEM學(xué)科和高等教育中。自然語言文本具有線性結(jié)構(gòu)特征,而數(shù)學(xué)表達(dá)式具有樹形結(jié)構(gòu)特征,這種混合文本的詞嵌入表達(dá)對(duì)數(shù)學(xué)文本相關(guān)領(lǐng)域具有至關(guān)重要的作用。傳統(tǒng)的詞嵌入技術(shù)適合處理具有線性特征的文本,難以處理具有樹形結(jié)構(gòu)特征的數(shù)學(xué)表達(dá)式。
數(shù)學(xué)表達(dá)式可以表達(dá)為兩種最重要的樹形結(jié)構(gòu),一種是符號(hào)布局樹(SymbolLayer Tree,SLT),這種表示是根據(jù)表達(dá)式的書寫線構(gòu)建的,具有數(shù)學(xué)表達(dá)式外觀信息;另一種是運(yùn)算符樹(Operator Tree,OPT),這種表示是根據(jù)表達(dá)式中的運(yùn)算符層次結(jié)構(gòu)構(gòu)建的,具有數(shù)學(xué)表達(dá)式語義信息。2021年,北京大學(xué)的Peng等提出基于BERT的數(shù)學(xué)表達(dá)式預(yù)訓(xùn)練模型MathBERT,可以獲得混合文本的詞嵌入表達(dá)。作者將數(shù)學(xué)表達(dá)式的LaTeX序列,OPT樹中序遍歷序列,上下文文本序列作為BERT模型輸入,并使用關(guān)注度掩蔽矩陣提取OPT樹的結(jié)構(gòu)信息,使樹形結(jié)構(gòu)中相鄰節(jié)點(diǎn)在掩蔽矩陣中才互相可見。最后在掩蔽語言模型和上下文預(yù)測(cè)任務(wù)上增加掩蔽結(jié)構(gòu)預(yù)測(cè)任務(wù)訓(xùn)練BERT模型。但此方法人為限制了關(guān)注度計(jì)算范圍,難以獲取遠(yuǎn)距離依賴的詞嵌入信息。同年,賓夕法尼亞大學(xué)的Shen等,提出了面向數(shù)學(xué)教育的MathBERT模型,創(chuàng)新的使用自動(dòng)打分任務(wù)和認(rèn)知追蹤預(yù)測(cè)任務(wù)對(duì)BERT進(jìn)行微調(diào)。但作者用數(shù)學(xué)文本的簡(jiǎn)單線性序列作為輸入,忽略了數(shù)學(xué)表達(dá)式的樹形結(jié)構(gòu)特征,使詞嵌入缺乏數(shù)學(xué)語義信息。
發(fā)明內(nèi)容
針對(duì)數(shù)學(xué)文本廣泛的、依賴于上下文的多義性和多態(tài)性特征,以及現(xiàn)有方法難以提取遠(yuǎn)距離依賴的數(shù)學(xué)表達(dá)式語義關(guān)系,從而導(dǎo)致的詞嵌入表示不夠全面和準(zhǔn)確的技術(shù)問題,本發(fā)明根據(jù)數(shù)學(xué)結(jié)構(gòu)的位置表達(dá)原理,以及自然語言和數(shù)學(xué)語言混合文本的結(jié)構(gòu)特點(diǎn),對(duì)具有樹形結(jié)構(gòu)的數(shù)學(xué)表達(dá)式進(jìn)行位置編碼,并將具有線性序列特征的文本和具有樹形結(jié)構(gòu)特征的數(shù)學(xué)表達(dá)式統(tǒng)一位置編碼,通過預(yù)訓(xùn)練模型在數(shù)學(xué)語言處理任務(wù)下的精細(xì)調(diào)整,進(jìn)而獲得自然語言和數(shù)學(xué)語言混合文本的詞嵌入表達(dá)。
為了達(dá)到上述目的,本發(fā)明提供了一種自然語言文本和數(shù)學(xué)語言文本的混合詞嵌入方法,包括:
S1:對(duì)包含自然語言文本和數(shù)學(xué)語言文本的學(xué)習(xí)資源進(jìn)行預(yù)處理,得到數(shù)學(xué)資源數(shù)據(jù)集,其中,數(shù)學(xué)語言文本為具有樹形結(jié)構(gòu)的數(shù)學(xué)表達(dá)式,自然語言文本為具有線性序列特征的上下文;
S2:對(duì)具有樹形結(jié)構(gòu)的數(shù)學(xué)表達(dá)式采用基于分支的位置編碼方式進(jìn)行絕對(duì)位置編碼,并根據(jù)絕對(duì)位置編碼結(jié)果計(jì)算樹形結(jié)構(gòu)中兩個(gè)節(jié)點(diǎn)的相對(duì)位置編碼;
S3:對(duì)具有線性序列特征的上下文采用負(fù)整數(shù)位置編碼,并使用補(bǔ)碼表示,然后將樹形結(jié)構(gòu)的根節(jié)點(diǎn)作為線性序列的首節(jié)點(diǎn),實(shí)現(xiàn)數(shù)學(xué)表達(dá)式和上下文的統(tǒng)一位置編碼,再根據(jù)統(tǒng)一位置編碼計(jì)算樹形結(jié)構(gòu)和線性序列中任意兩個(gè)節(jié)點(diǎn)的相對(duì)位置編碼;
S4:將步驟S1得到的數(shù)學(xué)資源數(shù)據(jù)集輸入BERT預(yù)訓(xùn)練模型,其中,BERT預(yù)訓(xùn)練模型具有位置編碼模塊和注意力模塊,將步驟S3中得到的統(tǒng)一位置編碼輸入位置編碼模塊、將步驟S3計(jì)算出的樹形結(jié)構(gòu)和線性序列中任意兩個(gè)節(jié)點(diǎn)的相對(duì)位置編碼送入BERT預(yù)訓(xùn)練模型的注意力模塊進(jìn)行訓(xùn)練,采用掩蔽語言模型和下句預(yù)測(cè)兩個(gè)標(biāo)準(zhǔn)預(yù)訓(xùn)任務(wù)對(duì)數(shù)學(xué)資源進(jìn)行預(yù)訓(xùn)練,得到訓(xùn)練好的詞嵌入模型;
S5:利用訓(xùn)練好的詞嵌入模型對(duì)自然語言文本和數(shù)學(xué)語言文本進(jìn)行處理,得到最終混合詞嵌入表達(dá)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于華中師范大學(xué),未經(jīng)華中師范大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210469691.4/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識(shí)別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級(jí)連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 文本生成方法、裝置和電子設(shè)備
- 數(shù)學(xué)式輸入裝置以及數(shù)學(xué)式修正方法
- 一種數(shù)學(xué)學(xué)習(xí)調(diào)查方法及裝置
- 基于實(shí)體組合的數(shù)學(xué)自然語言處理實(shí)現(xiàn)方法、系統(tǒng)
- 一種多用途學(xué)生用數(shù)學(xué)尺裝置
- 數(shù)學(xué)翻譯器、數(shù)學(xué)翻譯設(shè)備及平臺(tái)
- 一種數(shù)學(xué)學(xué)習(xí)輔助方法、系統(tǒng)及其裝置
- 基于虛擬現(xiàn)實(shí)的數(shù)學(xué)教學(xué)系統(tǒng)
- 一種數(shù)學(xué)符號(hào)輸入的裝置、方法、設(shè)備及存儲(chǔ)介質(zhì)
- 一種獲得數(shù)學(xué)對(duì)象標(biāo)注模型、數(shù)學(xué)對(duì)象標(biāo)注的方法和裝置
- 學(xué)具(幼兒數(shù)學(xué)智力學(xué)具)
- 自動(dòng)檢測(cè)文件中搭配錯(cuò)誤的系統(tǒng)和方法
- 網(wǎng)絡(luò)連接裝置及網(wǎng)絡(luò)連接裝置的語言環(huán)境設(shè)定方法
- 一種口語評(píng)測(cè)方法及裝置
- 一種語言設(shè)置方法及移動(dòng)終端
- 一種語言文本加載方法和裝置
- 一種語言交流人工智能系統(tǒng)及其語言處理方法
- 語言序列標(biāo)注方法、裝置存儲(chǔ)介質(zhì)及計(jì)算機(jī)設(shè)備
- 一種基于語言包實(shí)現(xiàn)繼電保護(hù)裝置多語言版本方法及裝置
- 一種應(yīng)用軟件的多語言核對(duì)方法及系統(tǒng)
- 多語言字幕顯示方法、裝置、終端設(shè)備及存儲(chǔ)介質(zhì)





