[發(fā)明專利]古籍標點填充方法和裝置在審
| 申請?zhí)枺?/td> | 202011118951.0 | 申請日: | 2020-10-19 |
| 公開(公告)號: | CN112199927A | 公開(公告)日: | 2021-01-08 |
| 發(fā)明(設(shè)計)人: | 程瑞雪 | 申請(專利權(quán))人: | 古聯(lián)(北京)數(shù)字傳媒科技有限公司 |
| 主分類號: | G06F40/166 | 分類號: | G06F40/166;G06F40/289;G06N3/04;G06N3/08 |
| 代理公司: | 北京悅成知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11527 | 代理人: | 樊耀峰 |
| 地址: | 100071 北京市豐臺*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 古籍 標點 填充 方法 裝置 | ||
1.一種古籍標點填充方法,包括:
對原始語料進行數(shù)據(jù)清洗,確定神經(jīng)網(wǎng)絡(luò)的訓練語料;所述原始語料包括已出版古籍的電子版文檔;
確定神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu);以及,
基于訓練語料對神經(jīng)網(wǎng)絡(luò)進行訓練,確定神經(jīng)網(wǎng)絡(luò)的參數(shù);以及,
基于確定的神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)和參數(shù)獲取古籍標點填充結(jié)果。
2.如權(quán)利要求1所述的古籍標點填充方法,其中,對原始語料進行數(shù)據(jù)清洗,確定神經(jīng)網(wǎng)絡(luò)的訓練語料包括:
清除原始語料中無具體含義的特殊字符,將原始語料中的非常見字由字符串表示轉(zhuǎn)換為漢字表示,去掉原始語料中包含句號或逗號少于設(shè)定數(shù)量的文本,確定神經(jīng)網(wǎng)絡(luò)的訓練語料。
3.如權(quán)利要求1所述的古籍標點填充方法,其中,確定神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)包括:
確定神經(jīng)網(wǎng)絡(luò)模型為Bi-LSTM,使用平方根函數(shù)調(diào)整神經(jīng)網(wǎng)絡(luò)的各層輸出;以及,
設(shè)定神經(jīng)網(wǎng)絡(luò)的殘差網(wǎng)絡(luò)。
4.如權(quán)利要求1所述的古籍標點填充方法,其中,基于訓練語料對神經(jīng)網(wǎng)絡(luò)進行訓練,確定神經(jīng)網(wǎng)絡(luò)的參數(shù)包括:
將訓練語料映射為設(shè)定長度的字向量;
將字向量輸入到神經(jīng)網(wǎng)絡(luò),得到第一輸出結(jié)果;以及,
將第一輸出結(jié)果的維度調(diào)整到設(shè)定維度,得到第二輸出結(jié)果;以及,
將第二輸出結(jié)果作為softmax函數(shù)輸入,將softmax函數(shù)輸出概率最大的標點確定為訓練結(jié)果;
基于訓練結(jié)果確定損失函數(shù)數(shù)值,基于損失函數(shù)數(shù)值確定神經(jīng)網(wǎng)絡(luò)的參數(shù)。
5.一種古籍標點填充裝置,包括:
訓練語料確定單元,用于對原始語料進行數(shù)據(jù)清洗,確定神經(jīng)網(wǎng)絡(luò)的訓練語料;
神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)確定單元,用于確定神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu);以及,
神經(jīng)網(wǎng)絡(luò)訓練單元,基于訓練語料對神經(jīng)網(wǎng)絡(luò)進行訓練,確定神經(jīng)網(wǎng)絡(luò)的參數(shù);以及,
填充結(jié)果獲取單元,基于確定的神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)和參數(shù)獲取古籍標點填充結(jié)果。
6.如權(quán)利要求5所述的古籍標點填充裝置,其中,訓練語料確定單元包括:
特殊字符清除單元,用于清除原始語料中無具體含義的特殊字符;
漢字轉(zhuǎn)換單元,用于將原始語料中的非常見字由字符串表示轉(zhuǎn)換為漢字表示;
無效文本去除單元,用于去掉原始語料中包含句號或逗號少于設(shè)定數(shù)量的文本。
7.如權(quán)利要求5所述的古籍標點填充裝置,其中,神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)確定單元包括:
神經(jīng)網(wǎng)絡(luò)模型確定單元,用于確定神經(jīng)網(wǎng)絡(luò)模型為Bi-LSTM,使用平方根函數(shù)調(diào)整神經(jīng)網(wǎng)絡(luò)的各層輸出;
殘差網(wǎng)絡(luò)設(shè)定單元,用于設(shè)定神經(jīng)網(wǎng)絡(luò)的殘差網(wǎng)絡(luò)。
8.如權(quán)利要求5所述的古籍標點填充裝置,其中,神經(jīng)網(wǎng)絡(luò)訓練單元包括:
字向量設(shè)定單元,用于將訓練語料映射為設(shè)定長度的字向量;
第一輸出結(jié)果獲取單元,用于將字向量輸入到神經(jīng)網(wǎng)絡(luò),得到第一輸出結(jié)果;以及,
第二輸出結(jié)果獲取單元,用于將第一輸出結(jié)果維度調(diào)整到設(shè)定維度,得到第二輸出結(jié)果;以及,
訓練結(jié)果確定單元,用于將第二輸出結(jié)果作為softmax函數(shù)輸入,將softmax函數(shù)輸出概率最大的標點確定為訓練結(jié)果。
9.一種計算設(shè)備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機指令,其特征在于,所述處理器執(zhí)行所述指令時實現(xiàn)權(quán)利要求1~4任一項所述方法的步驟。
10.一種計算機可讀存儲介質(zhì),其存儲有計算機指令,其特征在于,該指令被處理器執(zhí)行時實現(xiàn)權(quán)利要求1~4任一項所述方法的步驟。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于古聯(lián)(北京)數(shù)字傳媒科技有限公司,未經(jīng)古聯(lián)(北京)數(shù)字傳媒科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011118951.0/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





