[發明專利]一種自然語言文本和數學語言文本的混合詞嵌入方法在審
| 申請號: | 202210469691.4 | 申請日: | 2022-04-28 |
| 公開(公告)號: | CN114818698A | 公開(公告)日: | 2022-07-29 |
| 發明(設計)人: | 董石;唐家玉;陶雪云;王志鋒;田元;陳加;陳迪;左明章 | 申請(專利權)人: | 華中師范大學 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/30;G06F16/35;G06N3/08 |
| 代理公司: | 武漢科皓知識產權代理事務所(特殊普通合伙) 42222 | 代理人: | 羅飛 |
| 地址: | 430079 湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 自然語言 文本 數學 語言 混合 嵌入 方法 | ||
1.一種自然語言文本和數學語言文本的混合詞嵌入方法,其特征在于,包括:
S1:對包含自然語言文本和數學語言文本的學習資源進行預處理,得到數學資源數據集,其中,數學語言文本為具有樹形結構的數學表達式,自然語言文本為具有線性序列特征的上下文;
S2:對具有樹形結構的數學表達式采用基于分支的位置編碼方式進行絕對位置編碼,并根據絕對位置編碼結果計算樹形結構中兩個節點的相對位置編碼;
S3:對具有線性序列特征的上下文采用負整數位置編碼,并使用補碼表示,然后將樹形結構的根節點作為線性序列的首節點,實現數學表達式和上下文的統一位置編碼,再根據統一位置編碼計算樹形結構和線性序列中任意兩個節點的相對位置編碼;
S4:將步驟S1得到的數學資源數據集輸入BERT預訓練模型,其中,BERT預訓練模型具有位置編碼模塊和注意力模塊,將步驟S3中得到的統一位置編碼輸入位置編碼模塊、將步驟S3計算出的樹形結構和線性序列中任意兩個節點的相對位置編碼送入BERT預訓練模型的注意力模塊進行訓練,采用掩蔽語言模型和下句預測兩個標準預訓任務對數學資源進行預訓練,得到訓練好的詞嵌入模型;
S5:利用訓練好的詞嵌入模型對自然語言文本和數學語言文本進行處理,得到最終混合詞嵌入表達。
2.如權利要求1所述的自然語言文本和數學語言文本的混合詞嵌入方法,其特征在于,步驟S1對包含自然語言文本和數學語言文本的學習資源進行預處理包括:
對將包含自然語言文本和數學語言文本的學習資源處理為符號序列,其中,數學表達式為LaTeX格式,數學資源數據集為數學資源集合,表示為L={L1,L2,…,Li,…,LN’},Li表示第i個數學資源。
3.如權利要求2所述的自然語言文本和數學語言文本的混合詞嵌入方法,其特征在于,對將包含自然語言文本和數學語言文本的學習資源處理為符號序列,包括:
利用im2markup分詞工具LaTeX格式的數學表達式進行分詞,得到數學表達式分詞結果的符號序列,利用TangenS工具,將LaTeX格式的數學表達式轉化為運算符OPT樹,對OPT樹進行深度優先遍歷,得到數學表達式樹形結構遍歷結果的符號序列,其中,第i個數學資源的第j個數學表達式,表示為表示第j個數學表達式經LaTeX格式分詞后的第n’個符號,表示第j個數學表達式的OPT樹經深度優先遍歷得到的第k個符號,每個數學資源由自然語言文本和數學表達式組成,其中自然語言文本為數學表達式的上下文,數學表達式Mi,j的上下文為Ci,j={tz|tz∈Li,|z-pij|≤R},其中tz表示第z個自然語言單詞,pij是數學表達式Mi,j作為一個整體在序列中的位置,R最大為64;
根據自然語言和數學表達式的符號表達形式得到每個數學資源的表達,其中第i個數學資源,表示為:
NT是自然語言文本總長度;
當數學表達式Mi,j由多個連等式或不等式構成時,以等號和不等號為標志切分為根據每個數學資源的表達得到數學資源數據集,作為預訓練模型數據集其中i為學習資源序號,j為數學表達式編號,w為子表達式編號。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華中師范大學,未經華中師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210469691.4/1.html,轉載請聲明來源鉆瓜專利網。





