[發明專利]一種基于神經網絡概率消歧的網絡文本命名實體識別方法有效
| 申請號: | 201710390409.2 | 申請日: | 2017-05-27 |
| 公開(公告)號: | CN107203511B | 公開(公告)日: | 2020-07-17 |
| 發明(設計)人: | 周勇;劉兵;韓兆宇;王重秋 | 申請(專利權)人: | 中國礦業大學 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/289;G06N3/08 |
| 代理公司: | 南京瑞弘專利商標事務所(普通合伙) 32249 | 代理人: | 彭雄 |
| 地址: | 221116 江蘇省徐*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 神經網絡 概率 網絡 文本 命名 實體 識別 方法 | ||
本發明公開了一種基于神經網絡概率消歧的網絡文本命名實體識別方法,將無標簽語料分詞,利用Word2Vec提取詞向量,將樣本語料轉換成詞特征矩陣并窗口化,構建深度神經網絡進行訓練,在神經網絡的輸出層加入softmax函數做歸一化處理,得到每個詞對應命名實體類別的概率矩陣;將概率矩陣重新窗口化,利用條件隨機場模型進行消歧,得到最后的命名實體標注。本發明根據其存在網絡詞匯、新生詞匯的特性,提供了一種不改變神經網絡結構的詞向量增量學習方法,為應對網絡文本中語法結構不規范、錯別字多的問題,采用了概率消歧的方法。因此本發明的方法在網絡文本命名實體識別任務中可產生較高的準確率。
技術領域
本發明涉及網絡文本的處理及分析,尤其涉及一種基于神經網絡概率消歧的網絡文本命名實體識別的方法。
背景技術
網絡使得信息的采集、傳播的速度和規模達到空前的水平,實現了全球的信息共享與交互,它已經成為信息社會必不可少的基礎設施。現代通信和傳播技術,大大提高了信息傳播的速度和廣度。但與之俱來的問題和“副作用”是:洶涌而來的信息有時使人無所適從,從浩如煙海的信息海洋中迅速而準確地獲取自己最需要的信息,變得非常困難。如何從海量的網絡文本中分析出互聯網用戶所關注的人物、地點、機構等命名實體,成為網上營銷、群體情感分析等各種上層應用提供重要的支持信息。這使得面向網絡文本的命名實體識別成為網絡數據處理與分析中的一項重要的核心技術。
人們處理命名實體識別的方法研究主要分為兩類,基于規則的方法(rule-based)和基于統計的方法(statistic-based)。隨著機器學習理論的不斷完善和計算性能的極大提高,基于統計學的方法更加受到人們青睞。
目前,命名實體識別應用的統計模型方法主要包括:隱馬爾可夫模型、決策樹、最大熵模型、支持向量機、條件隨機場以及人工神經網絡。人工神經網絡在命名實體識別方面可以的到比條件隨機場、最大熵模型等模型取得更好的結果,但實用仍以條件隨機場、最大熵模型為主,如專利號CN201310182978.X使用條件隨機場并結合命名實體庫提出了對微博文本的命名實體識別方法及裝置、專利號CN200710098635.X提出了一種利用字特征使用最大熵模型建模的命名實體識別方法。人工神經網絡難以實用的原因在于人工神經網絡在命名實體識別領域常需要將詞轉化成詞向量空間中的向量,因此對于新生詞匯無法得到對應的向量,所以無法得到大規模的實際應用。
基于上述現狀,針對網絡文本的命名實體識別主要存在以下問題:第一,網絡文本因存在大量網絡詞匯、新生詞匯、錯別字,無法訓練出包含所有詞的詞向量空間以訓練神經網絡。第二,網絡文本存在的語言形式任意、語法結構不規范、錯別字多等現象導致其命名實體識別準確率下降。
發明內容
發明目的:為了克服現有技術中存在的不足,本發明提供一種增量提取詞特征而不需要重新訓練神經網絡、同時概率消歧識別的基于神經網絡概率消歧的網絡文本命名實體識別方法,該方法通過訓練神經網絡,獲取神經網絡對詞語所屬命名實體類型的預測概率矩陣,對神經網絡輸出的預測矩陣再以概率模型進行消歧,提高了網絡文本命名實體識別的準確性和準確率。
技術方案:為實現上述目的,本發明采用的技術方案為:
一種基于神經網絡概率消歧的網絡文本命名實體識別方法,將無標簽語料分詞,利用Word2Vec提取詞向量,將樣本語料轉換成詞特征矩陣并窗口化,構建深度神經網絡進行訓練,在神經網絡的輸出層加入softmax函數做歸一化處理,得到每個詞對應命名實體類別的概率矩陣。將概率矩陣重新窗口化,利用條件隨機場模型進行消歧,得到最后的命名實體標注。
具體包括以下步驟:
步驟1,通過網頁爬蟲獲取無標簽語料,從語料庫獲取有命名實體標注的樣本語料,利用自然語言工具對無標簽語料進行分詞。
步驟2,對已分詞好的無標簽語料和樣本語料通過Word2Vec工具進行詞向量空間的訓練。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國礦業大學,未經中國礦業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710390409.2/2.html,轉載請聲明來源鉆瓜專利網。





