[發明專利]一種中文實體提取方法及裝置有效
| 申請號: | 202010054462.7 | 申請日: | 2020-01-17 |
| 公開(公告)號: | CN111291550B | 公開(公告)日: | 2021-09-03 |
| 發明(設計)人: | 董哲;邵若琦;康宇佳;李月恒 | 申請(專利權)人: | 北方工業大學 |
| 主分類號: | G06F40/211 | 分類號: | G06F40/211;G06F40/295;G06F40/30;G06N3/04 |
| 代理公司: | 北京路浩知識產權代理有限公司 11002 | 代理人: | 鄭朝然 |
| 地址: | 100144 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 中文 實體 提取 方法 裝置 | ||
本發明實施例公開了一種中文實體提取方法及裝置,方法包括:將目標源語句切分成各個子句;對子句中的字進行向量化處理得到字向量;根據字向量及層級的雙向長短期記憶網絡BiLSTM確定由長短期記憶網絡LSTM得到每個字分別對應的各個標簽的概率矩陣;將概率矩陣輸入CRF模型中得到每個字分別對應的各個標簽中概率最大的標簽;提取由概率最大的標簽對應的字組成的實體。本發明實施例將目標源語句切分成各個子句,利于后續在字級別學習子句內語義表示及在子句級別學習子句間語義表示;通過CRF模型,確定每個字分別對應的各個標簽中概率最大的標簽并提取由概率最大的標簽對應的字組成的中文實體,提高了中文實體識別的準確性。
技術領域
本發明涉及計算機技術領域,具體涉及一種中文實體提取方法及裝置。
背景技術
隨著科技的進步和信息數字化,各行各業發生了巨大的變化和革新。
近年來,有關特定領域的實體識別得到了持續的研究關注,如在食品安全領域中,NER(Named Entity Recognition,命名實體識別)自動識別與食品有關的實體,并生成結構化數據,以幫助構建食品領域的知識圖譜。特定領域案例通常由記錄員記錄,但記錄員有時使用中文縮寫,導致同一實體有多種表達方式。并且對于漢字、字母、數字和標點符號混合在一起的實體,增加了識別實體的難度。
目前,特定領域中的實體具有一定的領域特殊性,對于識別特定領域的實體的研究還不夠深入。深度神經網絡在通用領域文本的實體識別中已經取得了較好的實驗結果,但是在特定領域文本的實體識別中使用較少。另外,在特定領域實體識別過程中,特定領域的實體可能處于句子的不同位置,導致在識別特定領域實體時需要不同的信息,即上下文信息對特定領域實體識別具有不同程度的影響。為了能夠準確地識別出特定領域實體,在識別實體過程中,就需要充分考慮句子上下文信息。現有技術直接把長句輸入BiLSTM-CRF(Bi-directional Long Short-Term Memory-Conditional Random Field,雙向長短期記憶-條件隨機場)模型,這種方式對句子的語義信息考慮不足。
發明內容
由于現有方法存在上述問題,本發明實施例提出一種中文實體提取方法及裝置。
第一方面,本發明實施例提出一種中文實體提取方法,包括:
基于標點符號,切分目標源語句,得到子句;
對所述子句中的字進行向量化處理,得到字向量;
根據所述字向量及層級的雙向長短期記憶網絡BiLSTM,確定由長短期記憶網絡LSTM得到每個字分別對應的各個標簽的概率矩陣;其中,所述層級的雙向長短期記憶網絡BiLSTM包括第一雙向長短期記憶網絡BiLSTM和第二雙向長短期記憶網絡BiLSTM;
將所述概率矩陣輸入條件隨機場模型CRF,得到每個字分別對應的各個標簽中概率最大的標簽;
提取由所述概率最大的標簽對應的字組成的中文實體。
可選地,所述基于標點符號,切分目標源語句,得到子句,包括:
基于標點符號,切分目標源語句,得到子句;
在每個所述子句的最后一個字后加上特殊標記;
其中,所述特殊標記代表一個子句終止。
可選地,所述對所述子句中的字進行向量化處理,得到字向量,包括:
利用Word2vec的Skip-gram模型,對所述子句中的字進行向量化處理,得到字向量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北方工業大學,未經北方工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010054462.7/2.html,轉載請聲明來源鉆瓜專利網。





