[發明專利]一種將深度學習應用于中文分詞的方法在審
| 申請號: | 202010000500.0 | 申請日: | 2020-01-02 |
| 公開(公告)號: | CN111209749A | 公開(公告)日: | 2020-05-29 |
| 發明(設計)人: | 曾誠;張敏;溫超東;任俊偉;譚道強;盛瀟 | 申請(專利權)人: | 湖北大學 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/242;G06F40/126;G06N3/04 |
| 代理公司: | 武漢帥丞知識產權代理有限公司 42220 | 代理人: | 朱必武 |
| 地址: | 430000 湖北*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 深度 學習 應用于 中文 分詞 方法 | ||
1.一種將深度學習應用于中文分詞的方法,其特征在于,包括如下步驟:
S1:數據預處理,借助文中原有的標點符號,段落分隔符等具有分割作用的符號對文檔進行切分,提取句子的字特征,得到第一數據;
S2:構建用于模型輸入的字典,字典包括源字典src_dict和目標字典tgt_dict兩部分,將第一數據進一步處理構建用于模型輸入的字典,得到第二數據;
S3:使用模型進行訓練,將src_dict和tgt_dict輸入到訓練模型中,使用BPEmd模型對預處理的數據進行字嵌入預訓練,第一數據作為Universal-Transformer的輸入,得到維度增加后的特征向量,第二數據作為CRF層的輸入,得到目標字向量模型。
2.根據權利要求1所述的一種將深度學習應用于中文分詞的方法,其特征在于,所述S1中字特征包括四種詞位置,分別為:詞的首字B、詞的中間字M、詞的尾字E、單字成詞S,通過詞位置對目標語料數據進行標注得到第一數據,將語料數據轉化成為json格式,為了加速訓練將第一數據轉為hdf5格式。
3.根據權利要求2所述的一種將深度學習應用于中文分詞的方法,其特征在于,所述S2中用空格把語料數據集合切分成句子序列,再用制表符“\t”把句子序列切分成單個字符和帶有字符對應的詞位置標注兩個序列,遍歷兩個序列,統計每個字符出現的頻次,如果頻次小于閾值5則選擇忽略,最終得到源字典src_dict和目標字典tgt_dict。
4.根據權利要求3所述的一種將深度學習應用于中文分詞的方法,其特征在于,所述S3中使用模型進行訓練,得到訓練的模型步包括:
S31:使用BPEmd模型對預處理的數據進行字嵌入預訓練,使字向量的字特征維度增加,得到維度增加后的特征向量;
S32:所述S1中的第一數據作為Universal-Transformer的輸入,模型編碼某個字符,與序列中其他字符進行運算,得到該字符與序列中左右字符的句法和語義關系編碼,得到提取了字符上下文關系特征的向量;
S33:所述S2中的第二數據作為CRF層的輸入,對語料數據的每個字向量的各種詞位置分類的概率根據上下文信息進行修訂,得到目標字向量模型。
5.根據權利要求4所述的一種將深度學習應用于中文分詞的方法,其特征在于,準備足夠大的訓練語料數據集合,確定期望的確定期望的詞表大小,將單詞拆分為字符序列并在末尾添加后綴“/w”,統計單詞頻率,統計每一個連續字節對的出現頻率,選擇最高頻者合并成新的,重復前述步驟直到達到設定的詞表大小或下一個最高頻的字節對出現頻率為1,其中停止符/w的意義在于表示詞后綴,隨著合并次數的增加。
6.根據權利要求5所述的一種將深度學習應用于中文分詞的方法,其特征在于,所述S32中,Universal-Transformer模型輸入一個字符序列,由編碼器和解碼器提取字符之間的語義語法特征后,根據任務類型輸出另一個字符序列,從編碼器輸入的句子首先會經過一個自注意力層,這層幫助編碼器在對每個字符編碼時關注輸入序列的其他字符,自注意力層的輸出會傳遞到前饋神經網絡中,前饋網絡是一個Transition層,通過共享權重的方法循環計算,這里的循環是指深度循環,每個位置的單詞對應的前饋神經網絡都完全一樣,編碼器的輸出作為解碼器的輸入,解碼器中也有編碼器的自注意力層和前饋層,這兩個層之間還有一個注意力層,用來關注輸入序列的相關部分,比如一個序列序列(a,b,c,d),先經過embedding表示成(,),在經過一層attention+transition表示成(,),如果是循環神經網絡,要先計算,再計算和,而transformer的自注意力層可以同時計算(,),再計算t+1的,這樣,每個self-attention+transition的輸出可以表示為:
這里Transition function可以和之前一樣是全連接層,也可以是卷積層;Universal-Transformer的位置嵌入考慮字符的位置和時間維度,每一次循環都會重新做一次坐標嵌入。
7.根據權利要求6所述的一種將深度學習應用于中文分詞的方法,其特征在于,所述S33中,把輸出數據輸入到CRF模型中,對中文句子的每個字向量的各種詞位置分類的概率根據上下文信息進行修訂,得到目標模型,CRF使得標記序列的每個元素依賴于觀察序列中相互聯系的特征,而且模型可以基于特征的重要性來賦予各特征不同的權重,模型中可以加入一些約束來保證最終預測結果是有效的,這些約束可以在訓練數據時被CRF自動學習得到,給定觀察序列X,如果目標序列Y的條件概率分布p(Y|X)滿足馬爾科夫性:
那么p(Y|X)為線性鏈條條件隨機場,在標注問題中,對于輸入的可觀測序列,某個特定的狀態序列的概率定義為:
其中, 為轉移函數,表示觀察序列在其標注序列在和之間的轉移概率,為狀態函數,表示對于觀察序列X第i位置的標記為y:的概率,、分別對應著相應函數的權重,需要從訓練樣本中估計出來。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于湖北大學,未經湖北大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010000500.0/1.html,轉載請聲明來源鉆瓜專利網。





