[發明專利]一種基于深度學習的古詩文自動識別方法有效

申請號：	201910492084.8	申請日：	2019-06-06
公開（公告）號：	CN110188781B	公開（公告）日：	2022-07-22
發明（設計）人：	張燦;殷亞云	申請（專利權）人：	焦點科技股份有限公司
主分類號：	G06V30/19	分類號：	G06V30/19;G06V10/774;G06V10/82;G06V10/764;G06F16/951;G06F40/30
代理公司：	南京瑞弘專利商標事務所(普通合伙) 32249	代理人：	陳建和
地址：	210032 江蘇省南京***	國省代碼：	江蘇;32
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種基于深度學習古詩文自動識別方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明公開了一種基于深度學習的古詩文自動識別方法，其特征在于，包括收集訓練語料、數據預處理、特征向量嵌入、神經網絡訓練和古詩文自動識別的步驟。本發明構建文本分類形式的深度神經網絡模型，自動識別文本句子是否為古詩文類型，同時能有效避免錯別字降低識別準確率。能滿足作詩質量檢測、文學作品分類管理、自動采集古詩文等應用場景對古詩文自動識別技術的需求。

技術領域

本發明涉及自然語言處理領域，特別是涉及一種基于深度學習的古詩文自動識別方法。

背景技術

近年來自然語言處理技術與語言學、文學的結合日趨緊密，文本分類已有效應用于人類語言的情感、意圖的自動識別，但鮮有應用于古詩文自動識別上。諸多應用場景都有著對古詩文自動識別技術的需求，如作詩質量檢測：對人工作詩、程序作詩的古詩文作品質量進行檢測；文學作品分類管理：對古詩文作品和現代文學作品進行自動分類；程序自動采集海量網絡古詩文作品等。由于傳統文本分類方法極大依賴于人工進行特征工程，而深度學習自動獲取特征表達的能力既避免了繁雜的人工特征工程，也能有效解決大規模文本分類問題。

基于深度學習的文本分類任務通常按照下列步驟實施：(1)收集語料，構建語料庫(2) 標注語料類別，構建訓練集、驗證集和測試集(3)構建神經網絡模型，用數據集訓練模型(4) 用訓練好的模型預測未知文本的類別。然而應用于中文文本分類的深度學習模型存在以下缺陷：(1)文本中錯別字會降低分類準確率。在古詩文自動識別這一任務上尤為明顯，古詩文用詞出現錯別字容易被誤識別為現代漢語；(2)文本長度特征容易誤導文本分類器給出錯誤結果，如古詩文識別任務中古詩文長度通常在五至十字左右，文本分類器容易誤將該長度的語句通通判別為古詩文類型；(3)通常文本分類模型需要學習詞向量的特征分布，而分詞器準確度、分詞粒度限制了文本分類模型的表現，況且古詩文不適合分詞；(4)在小數據集上非常容易過擬合導致準確率的降低；(5)難以訓練一個有效的深度神經網絡模型，訓練過程中容易出現梯度爆炸、梯度消失問題，導致模型無法收斂。因此如何發揮深度學習的優勢，實現對古詩文的自動識別是當前茲待解決的技術問題。

發明內容

本發明所要解決的技術問題是克服現有技術的不足，提供一種基于深度學習的古詩文自動識別方法。

為解決上述技術問題，本發明提供一種基于深度學習的古詩文自動識別方法，其特征在于，包括收集訓練語料、數據預處理、特征向量嵌入、神經網絡訓練、古詩文自動識別的步驟，具體為：

步驟1，收集訓練語料：利用爬蟲程序爬取互聯網網站提供的古詩文作為正樣本集；收集現代漢語句子語料作為負樣本集；統計正樣本集中古詩文句子長度，根據正樣本集中句子長度的集中分布范圍，選擇95％以上句子的句長分布值，以此數值修改負樣本集中的句子長度的分布；

統計正樣本集與負樣本集中句子數量，如數量不等，則以數量較少的一方樣本數量為準，保持正負樣本數量比例為1:1；

步驟2，數據預處理：使用拼音生成工具標注正、負樣本集中每個句子的拼音，以標簽“0”和“1”標注句子類別，其中標簽“0”代表現代漢語，標簽“1”代表古詩文；將句子與相應的拼音、類別標簽合并為訓練樣本，即Sample_i(S,P,T)由句子(S)、拼音(P)、類別標簽 (T)組成，隨機打散樣本集合中的樣本順序，并按8:1:1的比例劃分成訓練集、驗證集、測試集；

步驟3，特征向量嵌入：統計樣本集中古詩文短句的字數，選擇最長句包含的字數作為樣本集中句子和拼音長度值，記為L，將數據集中每個樣本的句子與拼音分別固定為該長度 L，然后將二者拼接，轉化成固定長度為2L的特征向量，向量中每一維度代表單個漢字或單個拼音；

步驟4，神經網絡訓練:構建神經網絡結構，網絡結構依次包含Embedding層、CNN卷積層、Bactch Normalization層、激活層、CNN最大池化層和全連接層；

所述embedding層用于將古詩文的文本編碼成數值向量；

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于焦點科技股份有限公司，未經焦點科技股份有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201910492084.8/2.html，轉載請聲明來源鉆瓜專利網。