[發明專利]一種生成古漢語標注模型的方法和系統有效
| 申請號: | 202011617362.7 | 申請日: | 2020-12-31 |
| 公開(公告)號: | CN112613316B | 公開(公告)日: | 2023-06-20 |
| 發明(設計)人: | 胡韌奮;李紳;諸雨辰 | 申請(專利權)人: | 北京師范大學 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/30;G06N20/20;G06N3/084 |
| 代理公司: | 北京京萬通知識產權代理有限公司 11440 | 代理人: | 許天易 |
| 地址: | 100875 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 生成 古漢語 標注 模型 方法 系統 | ||
1.一種生成古漢語標注模型的方法,其特征在于,該方法包括:
S1、訓練生成能夠表征上下文語義的語言模型;
S2、構建多任務聯合學習模型;
S3、同時訓練所述語言模型和多任務聯合學習模型,所述語言模型和多任務聯合學習模型組成古漢語標注模型;
所述步驟S2包括:
S21、構建句讀標點分類器;
S22、構建書名分類器;
S23、構建引號分類器;
S24、構建實體分類器;
其中,所述句讀標點分類器的輸入為所述語言模型的輸出向量;所述書名分類器、引號分類器和實體分類器的輸入為所述語言模型的輸出向量與所述句讀標點分類器的輸出向量的拼接。
2.根據權利要求1所述的方法,其特征在于,在所述步驟S1中,所述語言模型為BERT模型。
3.根據權利要求1所述的方法,其特征在于,所述句讀標點分類器包括標點全連接神經網絡和標點softmax分類器;書名分類器為書名CRF分類器;引號分類器為引號CRF分類器;實體分類器包括實體全連接神經網絡和實體softmax分類器。
4.根據權利要求1所述的方法,其特征在于,在所述步驟S3中,多任務聯合學習模型的全局損失函數定義為:
Loss=sign(ypunctuation)*Losspunctuation+sign(ybook)*Lossbook+sign(yquotation)*Lossquotation+sign(yentity)*Lossentity
其中,sign(y)是符號函數,即如果y0,則輸出1,如果y=0,則輸出0;ypunctuation是句讀標點的標準答案,Losspunctuation是句讀標點的損失,yquotation是引號的標準答案,Lossquotation是引號的損失,ybook是書名的標準答案,Lossbook是書名的損失,yentity是實體的標準答案,Lossentity是實體的損失;y是標準答案對應的標簽;是模型預測的標簽;y*是實體的標準答案設置多種取值;Cross_entropy是交叉熵損失,OTHER表示未分類實體。
5.根據權利要求4所述的方法,其特征在于,訓練時,根據反向傳播算法更新多任務聯合學習模型的參數和所述語言模型的參數。
6.一種生成古漢語標注模型的系統,其特征在于,所述系統包括:語言模型構建模塊、多任務聯合學習模型構建模塊和古漢語標注模型訓練模塊,其中,
所述語言模型構建模塊,用于訓練生成能夠表征上下文語義的語言模型;
所述多任務聯合學習模型構建模塊,用于構建多任務聯合學習模型,以識別標點、書名、引號和命名實體;多任務聯合學習模型包括句讀標點分類器、書名分類器、引號分類器和實體分類器;句讀標點分類器與語言模型相連接,接收語言模型輸出的向量,語言模型的輸出與句讀標點分類器的輸出拼接形成拼接向量,作為書名分類器、引號分類器和實體分類器的輸入;
所述古漢語標注模型訓練模塊,用于利用采集的帶標注數據,根據反向傳播算法對語言模型和多任務聯合學習模型同時進行訓練,訓練結束后所形成的語言模型和多任務聯合學習模型組成古漢語標注模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京師范大學,未經北京師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011617362.7/1.html,轉載請聲明來源鉆瓜專利網。





