[發明專利]一種快速序列標注方法有效
| 申請號: | 201210468749.X | 申請日: | 2012-11-19 |
| 公開(公告)號: | CN103064878A | 公開(公告)日: | 2013-04-24 |
| 發明(設計)人: | 王厚峰;何正焱 | 申請(專利權)人: | 北京大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/20 |
| 代理公司: | 北京萬象新悅知識產權代理事務所(普通合伙) 11360 | 代理人: | 蘇愛華 |
| 地址: | 100871*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 快速 序列 標注 方法 | ||
技術領域
本發明提供一種序列標注方法,屬于語言信息處理領域。本方法可以用于語言信息處理的不同層次,包括漢語分詞、詞性標注和命名實體識別等。?
背景技術
序列標注模型廣泛應用于信息檢索和自然語言處理的各個方面。在中文信息處理領域,分詞是語言信息處理的基礎。中文的字符之間沒有分隔符隔開,而字并不總能表達基本意義,只有切分出詞才能確定最基本的意義單位。很多中文搜索引擎的基礎模塊之一就是分詞模塊。隨著網絡文本數量的急劇增加,速度快、效果好的分詞模塊對中文搜索引擎性能有著十分重要的影響。此外,標注詞序列中每個詞的詞性,識別文本中的命名實體(即,專有名詞),也是文本信息處理的重要任務。無論是漢語分詞,詞性標注,還是命名實體識別,序列標注模型都大有用武之地。在圖1中,每個詞都已經切分開來,也標上了詞性(見參考文獻[1])。此外,也標識了命名實體(如,“中共中央”、“蘭紅光”)。?
常用的序列標注模型如隱馬爾可夫模型(HMM),最大熵模型(MEMM),條件隨機場模型(CRFs),馬爾可夫隨機場(MRF)等。為了構建模型,需要通過訓練來估計模型的參數。訓練過程是利用已帶有標記信息的訓練數據(如圖1中所示的數據),通過優化目標函數,獲得模型參數的過程。目前,使用最為廣泛的模型是CRFs模型,其優點是序列標注的準確度高,但缺點也十分明顯:訓練CRFs模型所花的時間代價非常高,尤其是類似于詞性標注的大標記數據在實際應用中幾乎不可接受。?
發明內容
本發明的目的是提供一種新的方法,能夠適應大規模訓練數據情況下訓練序列標注模型。其特點是訓練速度快,適合大規模語料和大的標記集合。?
本發明的原理如下:基于隨機梯度下降(SGD)在線學習算法,在訓練過程中,針對特征頻率,對二階海森矩陣采用對角化近似,即:利用特征頻率高低對對角元素賦予不同權重,與已有的二階海森矩陣近似算法比較,具有計算代價小的特點;在原有SGD算法的基礎上,顯著提高了訓練速度,且效果好。所述方法包括如下步驟:?
首先,從帶有標記信息的訓練數據中統計特征的頻率;?
然后,對不同頻率的特征對應的不同維度的參數給出不同的二階海森矩陣(Hessian)的對角線近似;?
最后,利用隨機梯度下降算法,按新的實例確定梯度,更新參數。需要指出,本方法適合于大規模訓練數據,對近似對角海森矩陣的近似輕量有效,且在不影響訓練效果的條件下顯著加快訓練速度。?
本發明提供的技術方案如下:?
一種快速序列標注方法,包括如下步驟:?
a)初始化模型參數(向量)
b)統計每個特征對所有位置的相對頻率#φ(x,y)/#token,特征的取值是0或1,即:特征函數是特征到0、1的映射φ(x,y)→{0,1},按公式2初始化矩陣B,其中i對應該維度特征的參數;?
c)取一個訓練實例,計算梯度,梯度的計算方法是對CRFs的損失函數求導數,即?其中Eφ(x,y)是特征函數在當前參數下的期望;?
d)按照公式1更新參數θ;?
e)檢查收斂性,如果未達到精度要求,則重復步驟c)-d),直至達到精度要求;?
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京大學,未經北京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210468749.X/2.html,轉載請聲明來源鉆瓜專利網。





