[發(fā)明專利]一種中文命名實體識別歧義消解方法有效
| 申請?zhí)枺?/td> | 201110265457.1 | 申請日: | 2011-09-08 |
| 公開(公告)號: | CN102314507A | 公開(公告)日: | 2012-01-11 |
| 發(fā)明(設(shè)計)人: | 王理;潘守慧;鄧衛(wèi)國;王思遠(yuǎn);于珊;施慧斌 | 申請(專利權(quán))人: | 北京航空航天大學(xué) |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100191*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 中文 命名 實體 識別 歧義 消解 方法 | ||
1.一種中文命名實體識別歧義消解方法,其特征是該方法包括以下步驟:
(1)通過特征歸納的CRF算法選取有意義的特征來減少特征個數(shù);
(2)采用修正的Viterbi算法來從基于特征歸納的CRF算法學(xué)習(xí)結(jié)果中選擇N-BEST最佳標(biāo)記序列,也就是選出觀測序列x的N個概率最大的標(biāo)記序列;
(3)通過對這N個標(biāo)記序列的比對,找出其中標(biāo)記不一致的部分,并認(rèn)為這部分之所以出現(xiàn)歧義切分是因為對實體邊界及其類型界定的不同,導(dǎo)致標(biāo)記結(jié)果出現(xiàn)不一致,轉(zhuǎn)步驟4;如果一致,則不用進行歧義消解,直接得到最終的標(biāo)記序列;
(4)從N個最佳候選序列中找出不一致部分并找出其對應(yīng)的觀測子序列xs,采用基于改進的貪婪算法進行歧義消解,得到最終的標(biāo)記序列。
2.按照權(quán)利要求書1所述的中文命名實體識別歧義消解方法,其特征在于步驟(1)實現(xiàn)過程為:
(1)考慮一組最新提供的特征,包括原子特征和組合特征;
(2)只選擇那些將會大大提高似然概率的候選特征,提高似然概率值不低于設(shè)定的閾值(threshold);
(3)訓(xùn)練特征的權(quán)重;
(4)重復(fù)執(zhí)行步驟(1)-(3)直到選完所有的特征。
3.按照權(quán)利要求書1所述的中文命名實體識別歧義消解方法,其特征在于步驟(2)在進行Viterbi算法選擇最佳標(biāo)記序列之前,考慮了新加入特征的效果,從而定義新的概率模型,新的模型中加入了新的特征函數(shù)g和新的權(quán)重μ,這樣概率模型就變?yōu)椋?/p>
其中Z′(x)為歸一化因子,其完整形式為:
假設(shè)當(dāng)我們估計新特征對似然函數(shù)的影響時,原先模型中那些特征函數(shù)的權(quán)重是不變的,這樣我們估計新增加的似然概率為:
其中訓(xùn)練集為{(xi,yi):i=1...M},新的似然函數(shù)LΛ+μ為:
為了估計參數(shù)μ,使用擬牛頓法進行迭代并求解計算出GΛ(g,μ)的最大值。
4.按照權(quán)利要求書1所述的中文命名實體識別歧義消解方法,其特征在于步驟(4)基本原理是通過構(gòu)建賦權(quán)無環(huán)有向圖G,然后求解權(quán)重最大的路徑,其具體實現(xiàn)具體步驟如下:
(1)將不一致觀測子序列xs中字的個數(shù)記為Ls,則G的頂點的個數(shù)為Ls+1,一個個單字Ci的有序組合成構(gòu)成G的邊{Eij},其中1≤i≤Ls,2≤j≤Ls+1,邊Eij表示字序列Ci...Cj-1組成的詞,也就是Eij實際上是一個詞,詞長為LW=j(luò)-i,若i=j(luò)-1則表示字Ci單獨成詞,由G的定義可知,G中有向邊的個數(shù)為
(2)為每個詞構(gòu)成的邊Eij賦權(quán)值Wij,其中Wij和詞Eij的出現(xiàn)頻率相關(guān),顯然可知詞Eij的詞長越長,其在文本中出現(xiàn)的頻率就會不大于比它詞長更短的詞,也就是短詞出現(xiàn)的頻率一定會大于等于包含該詞的長詞的詞頻,所以我們認(rèn)為詞長影響著詞的權(quán)重Wij,設(shè)詞Eij在測試數(shù)據(jù)中出現(xiàn)的頻率為Fij,那么詞的權(quán)重Eij為:
其中m表示詞長的擴大級數(shù);
(3)采用貪婪算法求出G中最長的權(quán)重路徑P*,路徑Pk中詞邊所組成的字序列必須和xs完全一樣,建立的模型為:
(4)組成路徑P*中的邊是xs的最終切分結(jié)果,把這個切分結(jié)果和標(biāo)注一致的部分進行整合,就得到觀測序列x最終的切分結(jié)果。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京航空航天大學(xué),未經(jīng)北京航空航天大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110265457.1/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





