[發明專利]基于BiLSTM網絡模型及CRF模型的分詞方法、裝置、計算機裝置及計算機存儲介質在審
| 申請號: | 202010899318.3 | 申請日: | 2020-08-31 |
| 公開(公告)號: | CN112036183A | 公開(公告)日: | 2020-12-04 |
| 發明(設計)人: | 周忠誠;段煉;黃九鳴;張圣棟 | 申請(專利權)人: | 湖南星漢數智科技有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/151;G06F16/31;G06N3/04 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 410000 湖南省長沙市長沙高新*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 bilstm 網絡 模型 crf 分詞 方法 裝置 計算機 存儲 介質 | ||
本發明適用于互聯網技術領域,提供了一種基于BiLSTM網絡模型及CRF模型的分詞方法、裝置、計算機裝置及計算機存儲介質,該方法包括:設置BiLSTM網絡模型的神經元數量、字向量的維度、待識別語句長度,設置CRF模型的分詞標簽,構建分詞模型;通過分詞模型接收訓練數據,根據字索引從預先獲取的字向量表中獲取對應的字向量,根據獲取的字向量生成字標簽索引;根據生成的字標簽索引與訓練數據的字標簽索引的對比結果,調整分詞模型的權重參數,得到優化后的分詞模型;通過優化后的分詞模型對待識別中文文本進行分詞處理。本發明提供的一種基于BiLSTM網絡模型及CRF模型的分詞方法,能夠減少人力成本,提高分詞結果的準確度。
技術領域
本發明屬于自然語言處理領域,尤其涉及一種基于BiLSTM網絡模型及CRF模型的分詞方法、裝置、計算機裝置及計算機存儲介質。
背景技術
隨著信息社會的到來,中文文本信息的數量出現爆炸式的增長。中文作為一種黏著語,其結構模糊,中文的詞與詞之間沒有明顯的間隔,只有字和句子這兩個層級的結構,但詞卻是中文文本意義的最小單位。若需要對中文文本進行命名實體識別、信息抽取、語法結構分析、自然語言理解等處理任務,必須對中文文本構建出詞一級的結構。在構建中文文本的詞一級的結構過程中,由于文本數量龐大,手工分詞非常慢,并且漢語是以字構詞,字與字之間是否成詞需依照語句以及上下文意思來確定,導致手工分詞過程中存在分詞準確率低,效率低。
現有技術中,使用循環神經網絡(Recurrent Neural Network,RNN)從大量文本中學習字的特征,并結合CRF、SVM對具有不同特征的字進行分類,進而確定哪些字是單字成詞,哪些是幾個字組成的詞。現有技術由于采用簡單原始的RNN,不能提取出字的長距離上下文中的隱含信息,導致學習到的特征表示不準確,存在分詞準確率很低的問題。
發明內容
本發明實施例提供一種基于BiLSTM網絡模型及CRF模型的分詞方法,旨在解決現有技術中由于采用簡單原始的RNN,不能提取出字的長距離上下文中的隱含信息,導致學習到的特征表示不準確,存在分詞準確率很低的問題。
本發明是這樣實現的,一種基于BiLSTM網絡模型及CRF模型的分詞方法,包括:
設置BiLSTM網絡模型的神經元數量、字向量的維度、待識別語句長度,設置CRF模型的分詞標簽,基于所述設置后的BiLSTM網絡模型及CRF模型構建分詞模型;
通過所述分詞模型接收訓練數據,所述訓練數據包括字索引及與字索引對應的字標簽索引,根據所述字索引從預先獲取的字向量表中獲取對應的字向量,根據所述獲取的字向量生成字標簽索引;
根據所述生成的字標簽索引與所述訓練數據的字標簽索引的對比結果,調整所述分詞模型的權重參數,得到優化后的分詞模型;
通過所述優化后的分詞模型對待識別中文文本進行分詞處理。
可選的,所述設置BiLSTM網絡模型的神經元數量、字向量的維度、待識別語句長度之前,所述基于BiLSTM網絡模型及CRF模型的分詞方法還包括以下過程:
基于原始中文文本構建字典,其中,所述字典包括中文字符及其與中文字符對應的索引;
構建所述字向量表,所述字向量表包括所述字典中的索引及與所述索引對應字符的字向量;所述字典中字符的索引與所述字向量表的索引一一對應。
可選的,所述通過所述優化后的分詞模型對中文文本進行分詞處理,包括以下過程:
根據所述字典將所述中文文本轉換成索引文本;
根據所述字向量表,將所述索引文本轉換為字向量文本,并將所述字向量文本輸入所述優化后的分詞模型,通過所述優化后的分詞模型得到每個索引對應的分詞標簽索引;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于湖南星漢數智科技有限公司,未經湖南星漢數智科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010899318.3/2.html,轉載請聲明來源鉆瓜專利網。





