[發(fā)明專利]古籍標(biāo)點(diǎn)填充方法和裝置在審
| 申請?zhí)枺?/td> | 202011118951.0 | 申請日: | 2020-10-19 |
| 公開(公告)號: | CN112199927A | 公開(公告)日: | 2021-01-08 |
| 發(fā)明(設(shè)計)人: | 程瑞雪 | 申請(專利權(quán))人: | 古聯(lián)(北京)數(shù)字傳媒科技有限公司 |
| 主分類號: | G06F40/166 | 分類號: | G06F40/166;G06F40/289;G06N3/04;G06N3/08 |
| 代理公司: | 北京悅成知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11527 | 代理人: | 樊耀峰 |
| 地址: | 100071 北京市豐臺*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 古籍 標(biāo)點(diǎn) 填充 方法 裝置 | ||
本發(fā)明公開了一種古籍標(biāo)點(diǎn)填充方法和裝置,所述古籍標(biāo)點(diǎn)填充方法包括:對原始語料進(jìn)行數(shù)據(jù)清洗,確定神經(jīng)網(wǎng)絡(luò)的訓(xùn)練語料;所述原始語料包括已出版古籍的電子版文檔;確定神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu);以及,基于訓(xùn)練語料對神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,確定神經(jīng)網(wǎng)絡(luò)的參數(shù);以及,基于確定的神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)和參數(shù)獲取古籍標(biāo)點(diǎn)填充結(jié)果。本發(fā)明能夠?qū)偶M(jìn)行自動標(biāo)點(diǎn)填充,提高古籍整理的效率。
技術(shù)領(lǐng)域
本發(fā)明涉及機(jī)器學(xué)習(xí)領(lǐng)域,特別涉及一種古籍標(biāo)點(diǎn)填充方法和裝置。
背景技術(shù)
標(biāo)點(diǎn)符號是人們理解文獻(xiàn)作品的重要工具。然而很多古籍文獻(xiàn)原本并沒有標(biāo)點(diǎn)符號,這就可能會使讀者在閱讀過程中無法真正理解古籍文獻(xiàn)的真正表達(dá)。為方便人們對古籍文獻(xiàn)的理解和學(xué)習(xí),開始出現(xiàn)人工對古籍文獻(xiàn)加注標(biāo)點(diǎn)符號,即對無標(biāo)點(diǎn)符號的古籍文獻(xiàn)進(jìn)行現(xiàn)代標(biāo)點(diǎn)符號填充。但古籍?dāng)?shù)量龐大,人工加注費(fèi)時費(fèi)力;且參與古籍加注人員的標(biāo)點(diǎn)加注能力與標(biāo)點(diǎn)加注質(zhì)量參差不齊,可能會出現(xiàn)標(biāo)注質(zhì)量不高的情況,這些都直接影響到古籍整理工作,也會影響后人對古代文化及文獻(xiàn)的理解與傳承。
目前為止,人們對于語音識別結(jié)果的標(biāo)點(diǎn)符號的添加進(jìn)行了一定的研究,但未有關(guān)于對古籍進(jìn)行標(biāo)點(diǎn)填充的報道。
CN110688822A公開了一種標(biāo)點(diǎn)符號的添加方法及設(shè)備、介質(zhì)。所述方法包括:獲取待添加標(biāo)點(diǎn)符號的文本;將所述待添加標(biāo)點(diǎn)符號的文本輸入完成遷移學(xué)習(xí)訓(xùn)練的標(biāo)點(diǎn)符號標(biāo)注模型,采用所述標(biāo)點(diǎn)符號標(biāo)注模型預(yù)測所述待添加標(biāo)點(diǎn)符號的文本中的標(biāo)點(diǎn)符號待添加位置及對應(yīng)標(biāo)點(diǎn)符號類型,并在所述標(biāo)點(diǎn)符號待添加位置的前后分詞單元處,采用所述標(biāo)點(diǎn)符號類型對應(yīng)的標(biāo)簽組合進(jìn)行標(biāo)注,輸出對應(yīng)的標(biāo)點(diǎn)符號標(biāo)注結(jié)果;根據(jù)所述標(biāo)點(diǎn)符號標(biāo)注結(jié)果,對所述待添加標(biāo)點(diǎn)符號的文本添加相應(yīng)的標(biāo)號符號;其中,所述標(biāo)點(diǎn)符號標(biāo)注模型包括預(yù)訓(xùn)練的語言子模型,所述語言子模型為具有時間序列的神經(jīng)網(wǎng)絡(luò)模型。該專利文獻(xiàn)適用于語音識別結(jié)果的標(biāo)點(diǎn)符號的添加,不涉及古籍的標(biāo)點(diǎn)符號的添加。
CN107767870A公開了一種標(biāo)點(diǎn)符號的添加方法、裝置和計算機(jī)設(shè)備。包括:對待識別文本中的每個漢字進(jìn)行編碼,根據(jù)所述漢字的編碼、所述漢字的分詞詞性和分詞邊界生成所述漢字的特征向量;將所述漢字的特征向量輸入雙向的長短時記憶模型,通過所述雙向的長短時記憶模型生成所述漢字的輸入特征;將所述漢字的輸入特征輸入深層神經(jīng)網(wǎng)絡(luò)模型,獲得所述漢字后每種標(biāo)點(diǎn)符號的添加結(jié)果對應(yīng)的概率;根據(jù)概率最高的添加結(jié)果在所述漢字后添加標(biāo)點(diǎn)符號。該專利文獻(xiàn)適用于語音信息識別結(jié)果的標(biāo)點(diǎn)符號的添加,不涉及古籍的標(biāo)點(diǎn)符號的添加。
CN110674629A公開了一種標(biāo)點(diǎn)符號標(biāo)注模型及其訓(xùn)練方法、設(shè)備、存儲介質(zhì)。該方法包括:獲取包含標(biāo)點(diǎn)符號的第一訓(xùn)練語料;將第一訓(xùn)練語料輸入預(yù)設(shè)的具有時間序列的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行預(yù)訓(xùn)練,獲得預(yù)訓(xùn)練的語言子模型;獲取包含標(biāo)點(diǎn)符號的第二訓(xùn)練語料,將第二訓(xùn)練語料去除標(biāo)點(diǎn)符號,并在已去除的標(biāo)點(diǎn)符號的前后分詞單元處標(biāo)注相應(yīng)的標(biāo)簽組合,得到第三訓(xùn)練語料;將第三訓(xùn)練語料輸入初始的標(biāo)點(diǎn)符號標(biāo)注模型進(jìn)行遷移學(xué)習(xí)訓(xùn)練,得到訓(xùn)練好的標(biāo)點(diǎn)符號標(biāo)注模型,其中,標(biāo)點(diǎn)符號標(biāo)注模型包括預(yù)訓(xùn)練的語言子模型,第三訓(xùn)練語料包括無標(biāo)點(diǎn)文本集合和標(biāo)簽序列集合。該專利文獻(xiàn)也是適用于語音信息識別結(jié)果的標(biāo)點(diǎn)符號的標(biāo)注。
因此,需要提供一種自動的、準(zhǔn)確性高的古籍標(biāo)點(diǎn)填充方法。
發(fā)明內(nèi)容
本發(fā)明公開的示例性實(shí)施例的目的在于克服現(xiàn)有技術(shù)中的上述的和/或其他的問題。
因此,根據(jù)本發(fā)明公開的一個方面,提供了一種古籍標(biāo)點(diǎn)填充方法,包括:
對原始語料進(jìn)行數(shù)據(jù)清洗,確定神經(jīng)網(wǎng)絡(luò)的訓(xùn)練語料;所述原始語料包括已出版古籍的電子版文檔;
確定神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu);以及,
基于訓(xùn)練語料對神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,確定神經(jīng)網(wǎng)絡(luò)的參數(shù);以及,
基于確定的神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)和參數(shù)獲取古籍標(biāo)點(diǎn)填充結(jié)果。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于古聯(lián)(北京)數(shù)字傳媒科技有限公司,未經(jīng)古聯(lián)(北京)數(shù)字傳媒科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011118951.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 標(biāo)示器
- 色帶間隔器
- 一種用于鋼筋連續(xù)標(biāo)點(diǎn)機(jī)的標(biāo)點(diǎn)裝置
- 一種文本標(biāo)點(diǎn)調(diào)整方法及裝置
- 標(biāo)點(diǎn)符號的添加方法及設(shè)備、介質(zhì)
- 標(biāo)點(diǎn)符號的校正系統(tǒng)
- 標(biāo)點(diǎn)符號的校正方法及設(shè)備、介質(zhì)
- 一種標(biāo)點(diǎn)預(yù)測模型訓(xùn)練方法及文本標(biāo)點(diǎn)確定方法
- 一種鋼筋標(biāo)點(diǎn)機(jī)
- 曲線的生成方法、裝置、電子設(shè)備及可讀介質(zhì)





