[發明專利]一種基于詞典和seq2seq預訓練機制的中醫古籍翻譯方法有效
| 申請號: | 201910020459.0 | 申請日: | 2019-01-09 |
| 公開(公告)號: | CN109740169B | 公開(公告)日: | 2020-10-13 |
| 發明(設計)人: | 高升;徐亨如;李思;徐雅靜 | 申請(專利權)人: | 北京郵電大學 |
| 主分類號: | G06F40/129 | 分類號: | G06F40/129;G06F40/242;G06N3/04 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100876 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 詞典 seq2seq 訓練 機制 中醫 古籍 翻譯 方法 | ||
1.一種基于詞典和seq2seq預訓練機制的中醫古籍翻譯方法,其特征在于,所述方法包含以下結構和步驟:
第一部分,訓練通用的seq2seq古文翻譯模型,
(1.1)古文和現代漢語詞語分別向量化,分別建立古文和現代漢語的詞典,對輸入文本的詞語進行映射,將詞語轉換為相應的詞向量;
(1.2)對步驟(1.1)得到的古文各詞語詞向量進行列拼接,得到編碼器輸入;
(1.3)編碼階段,使用循環神經網絡對古文進行語義信息編碼,將步驟(1.2)得到的向量作為編碼器的輸入,編碼成一個定長的語義向量context;
(1.4)解碼階段,用步驟(1.3)得到的context向量初始化用于解碼的循環神經網絡,使用特定的開始符,作為解碼器第一時刻的輸入,開始解碼;
(1.5)解碼直至輸出停止符,列拼接步驟(1.3)得到的語義向量context和上一時刻解碼器的輸出,得到下一時刻的解碼器輸入,輸入至解碼器,將解碼器輸出經過前向神經網絡得到翻譯結果,解碼直至解碼器輸出停止符,解碼結束;
第二部分,基于中醫字典,在中醫專業知識指導下,訓練針對中醫典籍的古文翻譯模型,
(2.1)由第一部分得到的古文詞表和現代漢語詞表,將中醫典籍的古文和現代漢語映射成詞向量;
(2.2)對步驟(2.1)得到的古文的文本矩陣進行列拼接,得到編碼器輸入,對于中醫古文的專有名詞,由《中醫名詞詞典》,得到現代漢語專業解釋,并根據已有的現代漢語詞表,將現代漢語專業解釋映射成詞向量;
(2.3)重載第一部分訓練得到的循環神經網絡模型,加入中醫專業知識編碼結構,即用循環神經單元對步驟(2.2)得到的現代漢語專業解釋詞向量進行處理,拼接正向和反向最后一個時刻循環神經網絡的隱層矩陣得到中醫專業知識編碼向量,并按第一部分的步驟二-步驟五進行訓練,和第一部分不同的是,步驟三得到的定長向量先和中醫專業知識編碼向量列連接,再經過一個前向神經網絡,得到指導向量,解碼階段的輸入由上一個時刻解碼器的輸出和指導向量列拼接得到。
2.如權利要求1所述的方法,其特征在于,所述第二部分步驟(2.2)具體包括:
(2.2.1)根據《中醫名詞詞典》,提取出中醫古文專有名詞;
(2.2.2)根據《中醫名詞詞典》,得到(2.2.1)中中醫古文專有名詞的現代漢語專業解釋;
(2.2.3)根據(1.1)得到的現代漢語詞表,將現代漢語專業解釋映射成詞向量。
3.如權利要求1所述的方法,其特征在于,第二部分編碼器、解碼器的初始參數為第一部分編碼器、解碼器的參數,且參數可更新、可訓練。
4.如權利要求1所述的方法,其特征在于,第二部分解碼器輸入由指導向量和解碼器上一個時刻的輸出列拼接得到,其中指導向量由步驟(1.3)得到的context向量和步驟(2.3)得到的中醫專業知識編碼向量列拼接后經過一個前向神經網絡得到。
5.如權利要求1所述的方法,其特征在于,網絡第一部分的訓練語料為具有古文-現代漢語平行語料的語料,包括古詩、古詞、古文,網絡第二部分的訓練語料為《黃帝內經》、《難經》、《傷寒雜病論》、《神農本草經》四部經典中醫典籍,網絡第二部分的中醫專業知識詞典為《中醫名詞詞典》。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京郵電大學,未經北京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910020459.0/1.html,轉載請聲明來源鉆瓜專利網。





