[發明專利]一種基于Bi-LSTM-CNN的分詞方法在審
| 申請號: | 201710946824.1 | 申請日: | 2017-10-12 |
| 公開(公告)號: | CN107967252A | 公開(公告)日: | 2018-04-27 |
| 發明(設計)人: | 唐華陽;岳永鵬;劉林峰 | 申請(專利權)人: | 北京知道未來信息技術有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06N3/08 |
| 代理公司: | 北京君尚知識產權代理事務所(普通合伙)11200 | 代理人: | 司立彬 |
| 地址: | 100102 北京市朝陽區阜*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 bi lstm cnn 分詞 方法 | ||
技術領域
本發明屬于計算機軟件技術領域,涉及一種基于Bi-LSTM-CNN的分詞方法。
背景技術
自然語言處理問題中亞洲類型的文字并非像西文具有天然的空格分隔符,很多西文處理方法并不能直接用于亞洲類型(中文、韓文和日文)文字的處理,這是因為亞洲類型(中文、韓文和日文)必須經過分詞的這道工序才能保持和西文一致。因此,分詞在亞洲類型文字的處理中是信息處理的基礎,其應用場景包括:
1.搜索引擎:搜索引擎中一個重要的功能就是做文檔的全文索引,其內容是將文字進行分詞,然后將文檔的分詞結果和文檔形成一個倒排索引,用戶在查詢的時候也是先將查詢的輸入語句進行分詞,而后將分詞的結果和索引數據庫進行對比,從而找出與當前輸入最為相似的文檔。
2.自動摘要生成:自動摘要是指將一篇較長的文檔用一段較短的語言文字去總結。而在總結的過程中,就需要計算一篇文檔中關鍵詞,因此在計算關鍵詞之前必須先對文檔做分詞處理。
3.自動校對:自動校對是指對一段文字作語法錯誤的檢查,其檢查的粒度還是基于詞的方式做的檢查,因此需要將用戶輸入的連續文字做分詞處理。
傳統的分詞方法可以分為基于詞典的分詞,基于詞頻統計的方法以及基于知識的方法;基于詞典的分詞嚴重依賴于詞典庫,詞頻統計的HMM(隱馬爾可夫)和CRF(條件隨機場)其只能關聯當前詞的前一個詞的語義。基于知識的人工神經網絡模型因模型訓練時的梯度消失問題,在實際的應用中網絡層數少,最終分詞結果優勢不明顯。
基于詞典的分詞方法嚴重依賴于詞典庫,效率比較低,且不能夠識別未登錄詞;本發明中登錄詞指的是已經出現在語料詞表中的詞,未登錄詞指的是沒有出現在語料詞表中的詞。
基于詞頻統計分詞方法(例如N-Gram),其只能關聯當前詞的前N-1個詞的語義,識別精度不夠高,當N增加的時,效率非常低。而且對未登錄的識別率偏低。
發明內容
針對現有技術中存在的技術問題,本發明的目的在于提供一種基于Bi-LSTM-CNN的分詞方法。本發明通過自然語言處理中的序列標注(sequential labeling)將一個序列作為輸入,并訓練一個模型使其為每一序列片段數據產生正確的輸出。
針對與中文類似(英文天然帶有空格作為詞之間的分割符)的語言進行分詞的方法。本發明要解決的核心問題包含三個:1分詞的效率,2分詞的精度,3未登錄詞的識別精度。
本發明的技術方案為:
一種基于Bi-LSTM-CNN的分詞方法,其步驟包括:
1)將訓練語料數據OrgData轉化為字符級的語料數據NewData;
2)統計該語料數據NewData字符得到一字符集合CharSet,并對該字符集合CharSet中每個字符進行編號,得到該字符集合CharSet對應的字符編號集合CharID;統計NewData中的字符的標簽,得到一標簽集合LabelSet,對該標簽集合LabelSet的標簽進行編號,得到對應的標簽編號集合LabelID;
3)將NewData按照句子長度劃分,得到若干句子;然后根據句子長度對得到的句子進行分組,得到包括n組句子的數據集合GroupData;
4)隨機無放回的從該數據集合GroupData中選取一句子分組,從該句子分組中抽取BatchSize個句子,每一個句子的字符構成一數據w,該句子的字符對應的標簽集合為y;根據字符編號集合CharID將數據w轉換為對應的編號,得到數據BatchData;根據標簽編號集合LabelID將集合y中的標簽轉換為對應的編號,得到數據yID;
5)將步驟4)生成的多個數據BatchData及其對應的標簽數據yID一起送入深度學習模型Bi-LSTM-CNN,訓練該深度學習模型Bi-LSTM-CNN的參數,當深度學習模型產生的損失值Cost(y′,yID)滿足設定條件或者達到最大迭代次數N,則終止深度學習模型的訓練,得到訓練后的深度學習模型Bi-LSTM-CNN;否則采用步驟4)的方法重新生成數據BatchData訓練該深度學習模型Bi-LSTM-CNN;
6)將待預測的數據PreData轉換成與該深度學習模型Bi-LSTM-CNN匹配的數據PreMData,并將其送入訓練好的深度學習模型Bi-LSTM-CNN,得到分詞結果OrgResult。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京知道未來信息技術有限公司,未經北京知道未來信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710946824.1/2.html,轉載請聲明來源鉆瓜專利網。





