[發明專利]一種基于深度學習的古詩文自動識別方法有效
| 申請號: | 201910492084.8 | 申請日: | 2019-06-06 |
| 公開(公告)號: | CN110188781B | 公開(公告)日: | 2022-07-22 |
| 發明(設計)人: | 張燦;殷亞云 | 申請(專利權)人: | 焦點科技股份有限公司 |
| 主分類號: | G06V30/19 | 分類號: | G06V30/19;G06V10/774;G06V10/82;G06V10/764;G06F16/951;G06F40/30 |
| 代理公司: | 南京瑞弘專利商標事務所(普通合伙) 32249 | 代理人: | 陳建和 |
| 地址: | 210032 江蘇省南京*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 學習 古詩文 自動識別 方法 | ||
1.一種基于深度學習的古詩文自動識別方法,其特征在于,包括收集訓練語料、數據預處理、特征向量嵌入、神經網絡訓練、古詩文自動識別的步驟,具體為:
步驟1,收集訓練語料:利用爬蟲程序爬取互聯網網站提供的古詩文作為正樣本集;收集現代漢語句子語料作為負樣本集;統計正樣本集中古詩文句子長度,根據正樣本集中句子長度的集中分布范圍,選擇95%以上句子的句長分布值,以此數值修改負樣本集中的句子長度的分布;
統計正樣本集與負樣本集中句子數量,如數量不等,則以數量較少的一方樣本數量為準,保持正負樣本數量比例為1:1;
步驟2,數據預處理:使用拼音生成工具標注正、負樣本集中每個句子的拼音,以標簽“0”和“1”標注句子類別,其中標簽“0”代表現代漢語,標簽“1”代表古詩文;將句子與相應的拼音、類別標簽合并為訓練樣本,即Samplei(S,P,T)由句子S、拼音P、類別標簽T組成,隨機打散樣本集合中的樣本順序,并按8:1:1的比例劃分成訓練集、驗證集、測試集;
步驟3,特征向量嵌入:統計樣本集中古詩文短句的字數,選擇最長句包含的字數作為樣本集中句子和拼音長度值,記為L,將數據集中每個樣本的句子與拼音分別固定為該長度L,然后將二者拼接,轉化成固定長度為2L的特征向量,向量中每一維度代表單個漢字或單個拼音;
步驟4,神經網絡訓練:構建神經網絡結構,網絡結構依次包含Embedding層、CNN卷積層、Batch Normalization層、激活層、CNN最大池化層和全連接層;
所述Embedding層用于將古詩文的文本編碼成數值向量;
所述CNN卷積層用于提取古詩文詩句的文本特征;
所述Batch Normalization層用于提升模型訓練效率,加速模型擬合;
所述激活層用于加入非線性因素提高模型表達能力;所述CNN最大池化層用于提取古詩文詩句文本中最重要的特征;
所述全連接層用于將文本特征轉換成類別預測的概率;
初始化神經網絡中的權重和超參數,輸入訓練數據集,迭代訓練神經網絡至損失函數收斂;
步驟5,古詩文自動識別:加載步驟4中訓練得到的用于古詩文識別的深度學習模型,輸入待識別語句,運行模型預測語句是否為古詩文類型。
2.如權利要求1所述的一種基于深度學習的古詩文自動識別方法,其特征在于:所述步驟1中,負樣本集中包含數量在50%以上的長度小于10字的句子。
3.如權利要求2所述的一種基于深度學習的古詩文自動識別方法,其特征在于:所述步驟1中,統計負樣本集中每個句子句長,增加負樣本的方法包括:(1)對于負樣本集中的句子,判斷句子成分中是否存在動詞名詞短語或者名詞動詞短語,若存在,則將句中的動詞名詞組合提取成單獨的短句子并加入負樣本集中;(2)針對負樣本集中每一個句子長度大于10的句子,隨機從[5,10]的區間內取一個整數值,從原始句子截取該整數值長度的子句并加入負樣本集中。
4.如權利要求3所述的一種基于深度學習的古詩文自動識別方法,其特征在于:所述步驟2中,檢測句子中的多音字,如果有,則保留多音字的每種讀音。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于焦點科技股份有限公司,未經焦點科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910492084.8/1.html,轉載請聲明來源鉆瓜專利網。





