[發(fā)明專利]一種中文命名實體識別歧義消解方法有效
| 申請?zhí)枺?/td> | 201110265457.1 | 申請日: | 2011-09-08 |
| 公開(公告)號: | CN102314507A | 公開(公告)日: | 2012-01-11 |
| 發(fā)明(設(shè)計)人: | 王理;潘守慧;鄧衛(wèi)國;王思遠;于珊;施慧斌 | 申請(專利權(quán))人: | 北京航空航天大學(xué) |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100191*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 中文 命名 實體 識別 歧義 消解 方法 | ||
技術(shù)領(lǐng)域:
本發(fā)明屬于命名實體抽取領(lǐng)域,特別涉及一種中文命名實體識別歧義消解方法。
背景技術(shù):
針對WEB海量的信息,如何快速有效地找到用戶解決問題所需要的知識。隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,互聯(lián)網(wǎng)已經(jīng)成為重要的信息源。面對海量的WEB信息,人們?nèi)匀幻媾R著知識匱乏的困境。
目前絕大多數(shù)網(wǎng)頁是用HTML編寫的,而HTML中的標簽僅僅刻畫了數(shù)據(jù)的表達方式,并沒有刻畫數(shù)據(jù)的語義信息,這使得計算機很難理解Web上的信息。面對著海量的信息,人們只能通過搜索引擎等工具執(zhí)行基于關(guān)鍵字的查找,而搜索引擎以網(wǎng)頁地址的超鏈接和網(wǎng)頁內(nèi)容摘要的形式返回各種查詢結(jié)果。人們通過閱讀大量的WEB文檔來獲取想要的信息,而其中一些網(wǎng)頁地址鏈接根本就不是用戶需要的。雖然信息檢索技術(shù)的出現(xiàn)對解決WEB海量信息獲取問題起到了很大的作用,但是僅僅對文本進行關(guān)鍵詞檢索已經(jīng)不能滿足人們很多的應(yīng)用需求。因此作為信息檢索的一個分支,信息抽取技術(shù)得到了學(xué)術(shù)界的重視。信息抽取的目的是通過自然語言處理等方法將人們可讀的非結(jié)構(gòu)化文本轉(zhuǎn)變?yōu)闄C器可讀的結(jié)構(gòu)化文本,特別是從各種信息源中抽取到用戶感興趣的實體、事件以及實體之間的關(guān)系等。而從信息源中抽取出各種實體的技術(shù)稱為命名實體識別技術(shù),命名實體識別技術(shù)是信息抽取研究的重要內(nèi)容之一。命名實體是信息的主要載體,所以命名實體識別技術(shù)的好壞對信息抽取結(jié)果有著重要的影響。從廣義上理解,命名實體可以是某個特定領(lǐng)域中的專有知識,電影名稱,書名,人名,地名,組織機構(gòu)名稱等專有名詞,可以概括為用戶想要獲取的各種關(guān)鍵信息;從狹義上理解命名實體是指人名,地名,組織機構(gòu)名稱等專有名稱。
命名實體的識別方法主要包括兩大類:基于規(guī)則的方法和基于統(tǒng)計的方法。基于規(guī)則的方法是命名實體識別中最早使用的技術(shù),命名實體識別依賴于知識庫和詞庫。知識庫是通過人工而建立的抽取規(guī)則庫,而詞庫通常包括常用姓氏、常用組織機構(gòu)名稱的后綴,常用地名的后綴等。采用這種方法的系統(tǒng)比較多,一般都是針對不同類型的命名實體識別使用不同的規(guī)則,但是隨著時間的發(fā)展,新的實體名稱大量涌現(xiàn),需要人工不斷添加規(guī)則庫。此外,有些規(guī)則本身就是有一定的局限的,對于那些比較生僻的地名和人名還是無法進行正確識別的。相對基于規(guī)則的抽取技術(shù),基于統(tǒng)計的方法利用完全或部分標注的語料進行訓(xùn)練,語料的標注可以通過半自動的方法完成。因此較小規(guī)模的訓(xùn)練可以在短時間以及接受人力代價的情況完成。同時,基于統(tǒng)計方法事先的系統(tǒng)只經(jīng)過較少的改動就可以移植到新的領(lǐng)域中去,只需要利用新領(lǐng)域的語料重新訓(xùn)練即可。目前廣泛應(yīng)用于命名實體識別的統(tǒng)計方法主要有:隱馬爾科夫模型(HMM),條件概率模型,最大熵模型(MEMM),條件隨機場模型(CRF)等。基于規(guī)則的方法需要人工參與,并且具有領(lǐng)域性,難于移植;而基于統(tǒng)計的方法適應(yīng)性較好,只要少量的人工參與,但是需要大量的訓(xùn)練數(shù)據(jù)時,需要花費大量的時間和存儲空間。所以比較理想的解決方法是結(jié)合兩種方法的優(yōu)點,用于命名實體識別,這種方法是基于混合的命名實體識別方法,目前也得到了廣泛的應(yīng)用。
發(fā)明內(nèi)容
本發(fā)明提供了一種中文命名實體識別歧義消解方法。本發(fā)明采用的技術(shù)方案包括以下步驟。
(1)通過特征歸納的CRF算法選取有意義的特征來減少特征個數(shù)。
(2)采用修正的Viterbi算法來從基于特征歸納的CRF算法學(xué)習(xí)結(jié)果中選擇N-BEST最佳標記序列,也就是選出觀測序列x的N個概率最大的標記序列。
(3)通過對這N個標記序列的比對,找出其中標記不一致的部分,并認為這部分之所以出現(xiàn)歧義切分是因為對實體邊界及其類型界定的不同,導(dǎo)致標記結(jié)果出現(xiàn)不一致,轉(zhuǎn)步驟4。如果一致,則不用進行歧義消解,直接得到最終的標記序列。
(4)從N個最佳候選序列中找出不一致部分并找出其對應(yīng)的觀測子序列xs,采用基于改進的貪婪算法進行歧義消解。得到最終的標記序列。
對于步驟1,其實現(xiàn)過程為:
(1)考慮一組最新提供的特征,包括原子特征和組合特征。
(2)只選擇那些將會大大提高似然概率的候選特征,提高似然概率值不低于設(shè)定的閾值(threshold)。
(3)訓(xùn)練特征的權(quán)重。
(4)重復(fù)執(zhí)行步驟(1)-(3)直到選完所有的特征。
步驟(2)在進行Viterbi算法選擇最佳標記序列之前,考慮了新加入特征的效果,從而定義新的概率模型,新的模型中加入了新的特征函數(shù)g和新的權(quán)重μ,這樣概率模型就變?yōu)椋?/p>
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京航空航天大學(xué),未經(jīng)北京航空航天大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110265457.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





