[發明專利]利用基于詞上下文的字嵌入與神經網絡的中文分詞方法有效
| 申請號: | 201710368867.6 | 申請日: | 2017-05-23 |
| 公開(公告)號: | CN107168955B | 公開(公告)日: | 2019-06-04 |
| 發明(設計)人: | 戴新宇;郁振庭;陳家駿;黃書劍;張建兵 | 申請(專利權)人: | 南京大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06N3/02 |
| 代理公司: | 江蘇圣典律師事務所 32237 | 代理人: | 胡建華 |
| 地址: | 210023 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 利用 基于 上下文 嵌入 神經網絡 中文 分詞 方法 | ||
本發明提出了一種利用基于詞上下文的字嵌入與神經網絡的中文分詞方法,在大規模的自動切分數據上學習字嵌入,將學習得到的字嵌入作為神經網絡分詞模型的輸入,可以有效幫助模型學習。具體步驟如下:根據字上下文以及詞位標記在大規模自動切分數據上學習字嵌入,將字嵌入作為神經網絡分詞模型的輸入,有效地提高了分詞的性能。對比其它基于神經網絡的中文分詞技術,該方法采用了基于詞上下文的字嵌入,有效地將詞信息融合進了分詞模型,成功的提高了分詞任務的準確性。
技術領域
本發明涉及一種利用計算機進行中文分詞的方法,特別是一種利用基于詞上下文的字嵌入與神經網絡相結合的方式進行自動中文分詞的方法。
背景技術
中文分詞是自然語言處理的一項基本任務,其廣泛的應用需求吸引了大量相關研究從而促進了其相關技術的快速發展。中文這樣的黏著語與西方語言不同,中文句子的詞與詞之間并沒有明顯的間隔。而一般自然語言處理任務的最小單元是“詞”,所以對于中文來說,首要的問題是先識別詞串。目前處理中文分詞的手段大體可以分為兩類,基于規則的方法與基于統計方法。基于詞典的規則方法需要構建一個大規模的詞典。切詞時會根據預先設計好的匹配規則來匹配詞典中的詞,從而完成對文本的切分。在計算資源相對受限和緊缺的時期,機器學習方法需要占用大量的計算資源和耗費很大內存開銷,并不具有實用性,所以規則方法在相當長的一段時期內成為了處理中文分詞問題的主流方法。而隨著計算資源的不斷增長,基于機器學習的方法慢慢成為了解決中文分詞的主要手段。
在SIGHAN2003舉行的首屆中文分詞評測中,基于字標注的方法首次被提出,該方法的性能雖然不是最高的,但是其未登錄詞的識別率位居榜首。對于中文分詞任務來說,主要有兩大難點,歧義切分和未登錄詞的識別,實驗證明這兩類問題并不是平等的,未登錄詞的影響要遠遠大于歧義切分。基于字的序列化標注的方法慢慢的被大家接受,成為了處理分詞問題的主流方法。
在建模分詞任務的方式,將其看成序列化標注任務是一種常見的手段。其工作過程是:針對待分詞的句子,以字為單位,從左至右對每個字進行標注(即打標簽),一般采用的標注體系是包括B、M、E、S四個標記的四詞位標注集,其中B代表當前字占據一個多字詞的詞首,M代表當前字占據一個多字詞的詞中E代表當前字占據一個多字詞的詞尾,S代表當前字是一個單字詞。得到標注序列之后,可以轉換成分詞的結果。本發明在建模中文分詞任務是也將其看成序列化標注任務并采用了上述的標注集。
神經網絡是一種常用的機器學習方法,它具有從一些基本原子特征自動學習特征組合方式的能力,這區別于需要使用者根據語言學相關等先驗知識來設計大量任務相關的模板的傳統方法。神經網絡的使用,可以省去人工定制大量組合特征模板的工作,同時可以借助神經網絡強大的表達能力來自動地學習特征之間的組合。在本發明使用了雙向長短記憶神經網絡來對句子的字序列進行計算,從而更多地捕獲遠距離特征。
對于基于神經網絡的模型方法而言,一個重要的問題就是如何使用詞嵌入。如果擁有足夠多的訓練數據,那么可以首先隨機初始化詞嵌入,然后把詞嵌入的學習融合到模型的訓練中來,從而得到高質量的詞嵌入。但是對于分詞這樣的任務,標注數據集的規模非常有限,一般在幾萬條左右。首先很難訓練好字嵌入,其次由于數據規模有限,遇到測試數據時,經常會遇到未登錄詞這樣的問題。一種方法是利用無監督數據學習字嵌入,典型的方法有Word2vec、GloVe,這些的方法的基本依據是根據分布式假設,相似的詞會出現在相似的上下文中。相似的詞之間會具有相似或相近的詞嵌入。但“相似”這一特性又依賴于具體的任務,對于不同的任務,“相似”這一概念是不同的。
發明內容
發明目的:本發明針對目前中文分詞技術中現有基于字標注的模型不能充分利用詞信息的缺點,提出了了一種基于詞上下文的字嵌入學習方法來間接的融合詞級別的信息,從而提升中文分詞任務的準確度。
為了解決上述技術問題,本發明公開了一種利用基于詞上下文的字嵌入與神經網絡的中文分詞方法以及關于分析過程中所使用模型參數訓練方法的附加說明。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京大學,未經南京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710368867.6/2.html,轉載請聲明來源鉆瓜專利網。





