[發明專利]一種基于神經網絡的中文標點符號添加方法在審
| 申請號: | 201910168357.3 | 申請日: | 2019-03-06 |
| 公開(公告)號: | CN109918666A | 公開(公告)日: | 2019-06-21 |
| 發明(設計)人: | 段大高;梁少虎;尹丹琪;韓忠明 | 申請(專利權)人: | 北京工商大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F16/33;G06N3/02;G06N3/08 |
| 代理公司: | 北京匯信合知識產權代理有限公司 11335 | 代理人: | 戴鳳儀 |
| 地址: | 100089*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 標點符號 神經網絡 中文 訓練數據集 文本 神經網絡構建 神經網絡模型 訓練神經網絡 恢復 工業要求 人工檢測 文本訓練 語音合成 傳統的 大數據 訓練集 準確率 構建 局限 預測 應用 | ||
1.一種基于神經網絡的中文標點符號添加方法,其特征在于,包括以下步驟:
步驟一:構造標點符號添加的訓練數據集;
步驟二:基于神經網絡構建中文標點符號添加的方法;
步驟三:利用步驟一中的標點符號訓練數據集來訓練步驟二中的神經網絡。
2.根據權利要求1所述的一種基于神經網絡的中文標點符號添加方法,其特征在于:所述步驟三中,神經網絡的深度學習工具基于Tensorflow后端的Keras,損失函數用交叉熵損失,優化器用Adam。
3.應用于權利要求1所述的一種構造標點符號添加的訓練數據集的方法,其特征在于:包括以下步驟:
步驟一:收集中文文本數據集,進行數據清洗,通過正則匹配過濾掉文本數據集中包含html標簽特殊字符等噪聲數據,保留數據集正文部分,過濾噪聲后得到清洗過后的文本序列;
步驟二:構建訓練數據集,使用分詞工具對清洗過后的文本序列進行分詞,得到分詞后的序列;
步驟三:對經分詞后的序列,進行標點符號標注,得到對應的標簽序列;
步驟四:構建詞-索引詞典,對分詞后的序列進行數字化處理,去掉全部的標點符號,使文本序列和標簽序列一一對應,得到數字序列,數字序列和標簽序列構成標點符號訓練數據集。
4.根據權利要求3所述的一種構造標點符號添加的訓練數據集的方法,其特征在于:所述步驟三中,標注規則為:當前詞后面若不是標點符號,則在標簽序列中,為當前詞標注為數字0,當前詞后面若是句號,則在標簽序列中,為當前詞標注為數字1,當前詞后面若是逗號,則在標簽序列中,為當前詞標注為數字2,當前詞后面若是分號,則在標簽序列中,為當前詞標注為數字3,等等,對常用的十六個標點符號進行標注。
5.應用于權利要求1所述的一種中文標點符號添加的方法,其特征在于:包括以下步驟:
步驟一:構建神經網絡,通過自注意力機制深度神經網絡來建模序列標注模型,構建深度自注意力模型和深層神經網絡模型;
步驟二:對識別文本中的每一個詞進行編碼,根據所述詞的編碼,所述詞的聲學信息編碼,所述詞的詞性特征,所述詞的句法特征,生成所述詞的特征向量;
步驟三:將步驟二得出的所述詞的特征向量輸入步驟一中的深度自注意力模型,通過所述深度自注意力模型將所述詞的特征向量與所述深度自注意力模型獲取所述詞與其他詞句意的相關性信息結合,生成所述詞的輸入特征;
步驟四:將步驟三得出的所述詞的輸入特征輸入步驟一中的深層神經網絡模型,得到所述詞后每種標點符號預測的概率,所述詞后預測標點符號的概率包括,沒有標點符號的概率,預測為每種標點符號的概率,根據概率最高的預測結果在所述詞后添加標點符號。
6.根據權利要求5所述的一種中文標點符號添加的方法,其特征在于:所述步驟三中,自注意力模型獲得由待識別文本中每個詞的特征向量組成的特征向量序列之后,按照序列的先后順序來構建輸出,將待識別文本看作序列,通過將輸入向量通過三個可學習的權重矩陣分別映射為查詢向量、鍵向量和值向量,通過計算值向量的加權和得到當前詞的表示,權重為查詢向量和鍵向量相關性,通過自注意力機制,學習到當前詞和其他所有詞的句意相關性信息,句意信息包括上述詞所屬的句子成分、上述詞在句子中的位置、上述詞的詞性和上述詞的上下文文本的語義信息。
7.根據權利要求5所述的一種中文標點符號添加的方法,其特征在于:所述步驟四中,深層神經網絡模型的輸出為所述詞對應的一維向量,上述一維向量分別代表了該詞后不加標點以及加各種標點符號的概率。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京工商大學,未經北京工商大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910168357.3/1.html,轉載請聲明來源鉆瓜專利網。





