[發明專利]一種基于深度學習的古詩文自動識別方法有效
| 申請號: | 201910492084.8 | 申請日: | 2019-06-06 |
| 公開(公告)號: | CN110188781B | 公開(公告)日: | 2022-07-22 |
| 發明(設計)人: | 張燦;殷亞云 | 申請(專利權)人: | 焦點科技股份有限公司 |
| 主分類號: | G06V30/19 | 分類號: | G06V30/19;G06V10/774;G06V10/82;G06V10/764;G06F16/951;G06F40/30 |
| 代理公司: | 南京瑞弘專利商標事務所(普通合伙) 32249 | 代理人: | 陳建和 |
| 地址: | 210032 江蘇省南京*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 學習 古詩文 自動識別 方法 | ||
本發明公開了一種基于深度學習的古詩文自動識別方法,其特征在于,包括收集訓練語料、數據預處理、特征向量嵌入、神經網絡訓練和古詩文自動識別的步驟。本發明構建文本分類形式的深度神經網絡模型,自動識別文本句子是否為古詩文類型,同時能有效避免錯別字降低識別準確率。能滿足作詩質量檢測、文學作品分類管理、自動采集古詩文等應用場景對古詩文自動識別技術的需求。
技術領域
本發明涉及自然語言處理領域,特別是涉及一種基于深度學習的古詩文自動識別方法。
背景技術
近年來自然語言處理技術與語言學、文學的結合日趨緊密,文本分類已有效應用于人類語言的情感、意圖的自動識別,但鮮有應用于古詩文自動識別上。諸多應用場景都有著對古詩文自動識別技術的需求,如作詩質量檢測:對人工作詩、程序作詩的古詩文作品質量進行檢測;文學作品分類管理:對古詩文作品和現代文學作品進行自動分類;程序自動采集海量網絡古詩文作品等。由于傳統文本分類方法極大依賴于人工進行特征工程,而深度學習自動獲取特征表達的能力既避免了繁雜的人工特征工程,也能有效解決大規模文本分類問題。
基于深度學習的文本分類任務通常按照下列步驟實施:(1)收集語料,構建語料庫(2) 標注語料類別,構建訓練集、驗證集和測試集(3)構建神經網絡模型,用數據集訓練模型(4) 用訓練好的模型預測未知文本的類別。然而應用于中文文本分類的深度學習模型存在以下缺陷:(1)文本中錯別字會降低分類準確率。在古詩文自動識別這一任務上尤為明顯,古詩文用詞出現錯別字容易被誤識別為現代漢語;(2)文本長度特征容易誤導文本分類器給出錯誤結果,如古詩文識別任務中古詩文長度通常在五至十字左右,文本分類器容易誤將該長度的語句通通判別為古詩文類型;(3)通常文本分類模型需要學習詞向量的特征分布,而分詞器準確度、分詞粒度限制了文本分類模型的表現,況且古詩文不適合分詞;(4)在小數據集上非常容易過擬合導致準確率的降低;(5)難以訓練一個有效的深度神經網絡模型,訓練過程中容易出現梯度爆炸、梯度消失問題,導致模型無法收斂。因此如何發揮深度學習的優勢,實現對古詩文的自動識別是當前茲待解決的技術問題。
發明內容
本發明所要解決的技術問題是克服現有技術的不足,提供一種基于深度學習的古詩文自動識別方法。
為解決上述技術問題,本發明提供一種基于深度學習的古詩文自動識別方法,其特征在于,包括收集訓練語料、數據預處理、特征向量嵌入、神經網絡訓練、古詩文自動識別的步驟,具體為:
步驟1,收集訓練語料:利用爬蟲程序爬取互聯網網站提供的古詩文作為正樣本集;收集現代漢語句子語料作為負樣本集;統計正樣本集中古詩文句子長度,根據正樣本集中句子長度的集中分布范圍,選擇95%以上句子的句長分布值,以此數值修改負樣本集中的句子長度的分布;
統計正樣本集與負樣本集中句子數量,如數量不等,則以數量較少的一方樣本數量為準,保持正負樣本數量比例為1:1;
步驟2,數據預處理:使用拼音生成工具標注正、負樣本集中每個句子的拼音,以標簽“0”和“1”標注句子類別,其中標簽“0”代表現代漢語,標簽“1”代表古詩文;將句子與相應的拼音、類別標簽合并為訓練樣本,即Samplei(S,P,T)由句子(S)、拼音(P)、類別標簽 (T)組成,隨機打散樣本集合中的樣本順序,并按8:1:1的比例劃分成訓練集、驗證集、測試集;
步驟3,特征向量嵌入:統計樣本集中古詩文短句的字數,選擇最長句包含的字數作為樣本集中句子和拼音長度值,記為L,將數據集中每個樣本的句子與拼音分別固定為該長度 L,然后將二者拼接,轉化成固定長度為2L的特征向量,向量中每一維度代表單個漢字或單個拼音;
步驟4,神經網絡訓練:構建神經網絡結構,網絡結構依次包含Embedding層、CNN卷積層、Bactch Normalization層、激活層、CNN最大池化層和全連接層;
所述embedding層用于將古詩文的文本編碼成數值向量;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于焦點科技股份有限公司,未經焦點科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910492084.8/2.html,轉載請聲明來源鉆瓜專利網。





