[發明專利]一種基于神經網絡的中文標點符號添加方法在審
| 申請號: | 201910168357.3 | 申請日: | 2019-03-06 |
| 公開(公告)號: | CN109918666A | 公開(公告)日: | 2019-06-21 |
| 發明(設計)人: | 段大高;梁少虎;尹丹琪;韓忠明 | 申請(專利權)人: | 北京工商大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F16/33;G06N3/02;G06N3/08 |
| 代理公司: | 北京匯信合知識產權代理有限公司 11335 | 代理人: | 戴鳳儀 |
| 地址: | 100089*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 標點符號 神經網絡 中文 訓練數據集 文本 神經網絡構建 神經網絡模型 訓練神經網絡 恢復 工業要求 人工檢測 文本訓練 語音合成 傳統的 大數據 訓練集 準確率 構建 局限 預測 應用 | ||
本發明提出一種基于神經網絡的中文標點符號添加方法,包括以下步驟:構造標點符號添加的訓練數據集、基于神經網絡構建中文標點符號添加方法、利用標點符號訓練數據集來訓練神經網絡、利用訓練好的神經網絡對中文標點符號進行恢復、勘誤;本發明從大數據出發,構建深度神經網絡模型來對中文標點符號恢復、勘誤,突破了傳統的大量人工檢測的局限,神經網絡在大量訓練集一經訓練完成,就可以對各種題材的文本進行標點符號的恢復勘誤,經大量文本訓練過后的神經網絡,標點符號預測的準確率在95%以上,精確率在85%以上,召回率在85%以上,f1值在85%以上,符合工業要求水平,本發明可應用于對語音合成文字后的文本進行標點符號勘誤。
技術領域
本發明涉及自然語言處理領域,尤其涉及一種基于神經網絡的中文標點符號添加方法。
背景技術
在NLP領域里,語音轉化為文本標點符號不能顯式的添加,或者只是依據語音的停頓添加標點,這樣往往導致標點符號添加錯誤,且只能添加逗號等分隔符進行分句,轉化后的文本往往需要大量人工干預。在出版社,期刊,雜志等領域要對稿件進行格式審查,標點符號的規范使用是重要的一項標準。
目前針對中文標點符號預測勘誤,學術界還沒有提出一個較好的方法,在該領域還處于探索階段,已有的方法往往是基于統計的規則匹配,之后人工復查,這樣浪費大量人力。基于近年來大數據,神經網絡的興起,本發明在海量中文文本數據集上訓練神經網絡,在標點符號自動添加,自動判斷標點符號使用正誤上取得了很好的效果。因此,本發明提出一種基于神經網絡的中文標點符號添加方法,以解決現有技術中的不足之處。
發明內容
針對上述問題,本發明從大數據出發,構建深度神經網絡模型來對中文標點符號恢復、勘誤,突破了傳統的大量人工檢測的局限,神經網絡在大量訓練集一經訓練完成,就可以對各種題材的文本進行標點符號的恢復勘誤,經大量文本訓練過后的神經網絡,標點符號預測的準確率在95%以上,精確率在85%以上,召回率在85%以上,f1值在85%以上,符合工業要求水平。本發明可應用于對語音合成文字后的文本進行標點符號勘誤,對出版社,雜志社,等投稿的稿件進行標點符號的勘誤,對中文文本標點符號規范化自動化處理是一種有益的嘗試。
本發明提出一種基于神經網絡的中文標點符號添加方法,包括以下步驟:
步驟一:構造標點符號添加的訓練數據集;
步驟二:基于神經網絡構建中文標點符號添加方法;
步驟三:利用步驟一中的標點符號訓練數據集來訓練步驟二中的神經網絡。
進一步改進在于:所述步驟三中,神經網絡的深度學習工具基于Tensorflow后端的Keras,損失函數用交叉熵損失,優化器用Adam。
一種構造標點符號添加的訓練數據集方法,包括以下步驟:
步驟一:收集中文文本數據集,進行數據清洗,通過正則匹配過濾掉文本數據集中包含html標簽特殊字符等噪聲數據,保留數據集文本部分,過濾噪聲后得到清洗過后的文本序列;
步驟二:構建訓練數據集,使用分詞工具對清洗過后的文本序列進行分詞,得到分詞后的序列;
步驟三:對經分詞后的序列,進行標點符號標注,得到對應的標簽序列;
步驟四:構建詞-索引詞典,對分詞后的序列進行數字化處理,去掉全部的標點符號,使文本序列和標簽序列一一對應,得到數字序列,數字序列和標簽序列構成標點符號訓練數據集。
進一步改進在于:所述步驟三中,標注規則為:當前詞后面若不是標點符號,則在標簽序列中,為當前詞標注為數字0,當前詞后面若是句號,則在標簽序列中,為當前詞標注為數字1,當前詞后面若是逗號,則在標簽序列中,為當前詞標注為數字2,當前詞后面若是分號,則在標簽序列中,為當前詞標注為數字3,等等,對常用的十六個標點符號進行標注。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京工商大學,未經北京工商大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910168357.3/2.html,轉載請聲明來源鉆瓜專利網。





