[發(fā)明專利]一種基于條件隨機(jī)場(chǎng)的中文人名自動(dòng)識(shí)別方法在審
| 申請(qǐng)?zhí)枺?/td> | 201310202667.5 | 申請(qǐng)日: | 2013-05-27 |
| 公開(公告)號(hào): | CN104182423A | 公開(公告)日: | 2014-12-03 |
| 發(fā)明(設(shè)計(jì))人: | 呂釗;高維維 | 申請(qǐng)(專利權(quán))人: | 華東師范大學(xué) |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30 |
| 代理公司: | 隆天國際知識(shí)產(chǎn)權(quán)代理有限公司 72003 | 代理人: | 黃嵩泉;呂俊清 |
| 地址: | 200241 *** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 條件 隨機(jī) 中文 人名 自動(dòng)識(shí)別 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及自然語言處理領(lǐng)域,具體地說是命名實(shí)體識(shí)別中的中文人名識(shí)別技術(shù)。
背景技術(shù)
中文人名主要包括中國人名、日本人名、外國音譯人名等。中文人名的識(shí)別是中文命名實(shí)體識(shí)別的重要組成部分,同時(shí)也是信息挖掘、信息抽取、機(jī)器翻譯、文本分類等研究領(lǐng)域重要的基礎(chǔ)性工作。此外,在分詞領(lǐng)域,絕大多數(shù)的未登錄詞是人名,中文人名的識(shí)別效果直接影響了分詞的效果。中文人名識(shí)別問題的解決是提高中文文本自動(dòng)分詞精度的先決條件,識(shí)別效果有待提高。
有鑒于此,發(fā)明人提供了一種基于條件隨機(jī)場(chǎng)的中文人名自動(dòng)識(shí)別方法。
發(fā)明內(nèi)容
針對(duì)現(xiàn)有技術(shù)中的缺陷,本發(fā)明提供了一種基于條件隨機(jī)場(chǎng)的中文人名自動(dòng)識(shí)別方法,克服了現(xiàn)有技術(shù)的困難,通過對(duì)中文人名特征的研究,結(jié)合統(tǒng)計(jì)學(xué)的概率模型,構(gòu)建出中文人名自動(dòng)識(shí)別系統(tǒng)。通過對(duì)文本信息進(jìn)行分詞處理,基于條件隨機(jī)場(chǎng)并結(jié)合上下文規(guī)則及人名可信度的方法,最后得到候選人名。借助局部統(tǒng)計(jì)算法對(duì)邊界識(shí)別錯(cuò)誤的人名進(jìn)行修正,最終得到系統(tǒng)的識(shí)別結(jié)果。本系統(tǒng)大大降低了由于分詞而產(chǎn)生的識(shí)別錯(cuò)誤,較好的解決了其他命名實(shí)體識(shí)別為中文人名的情況,提高了識(shí)別效果。
本發(fā)明提出了基于條件隨機(jī)場(chǎng)(CRF)和上下文規(guī)則及人名可信度的方法(CRRM)進(jìn)行中文人名識(shí)別。所采用的方法可以分為兩個(gè)階段,即訓(xùn)練階段和識(shí)別階段,預(yù)處理訓(xùn)練階段包含CRF訓(xùn)練和獲取規(guī)則集兩部分,在CRF訓(xùn)練階段,系統(tǒng)在訓(xùn)練語料庫的基礎(chǔ)上依次進(jìn)行特征提取,特征選擇和參數(shù)訓(xùn)練,最后得到CRF參數(shù)模型;另外利用基于轉(zhuǎn)換的錯(cuò)誤驅(qū)動(dòng)的學(xué)習(xí)方法進(jìn)行規(guī)則提取并最終獲得規(guī)則集。CRRM人名識(shí)別過程,首先利用訓(xùn)練階段設(shè)定的特征構(gòu)建CRF模型并進(jìn)行人名初識(shí)別,然后對(duì)CRF識(shí)別的結(jié)果進(jìn)行預(yù)處理,再利用人名可信度模型、規(guī)則等對(duì)識(shí)別結(jié)果進(jìn)行確認(rèn),最后利用局部統(tǒng)計(jì)算法對(duì)邊界識(shí)別錯(cuò)誤的人名進(jìn)行了修正,并利用擴(kuò)散操作召回系統(tǒng)中未被識(shí)別的人名。
根據(jù)本發(fā)明的一個(gè)方面,提供一種基于條件隨機(jī)場(chǎng)的中文人名自動(dòng)識(shí)別方法,包括以下步驟:
構(gòu)建條件隨機(jī)場(chǎng)模型;
獲取人名規(guī)則集,首先利用初始狀態(tài)的標(biāo)注器來標(biāo)注文本,接下來采用轉(zhuǎn)換模板和目標(biāo)函數(shù),通過與已經(jīng)正確標(biāo)注過的參考語料相比較得到多條候選的轉(zhuǎn)換模板,然后從中找出應(yīng)用一條轉(zhuǎn)換模板后可產(chǎn)生標(biāo)注錯(cuò)誤次數(shù)最少的轉(zhuǎn)換式,作為一條新的標(biāo)注規(guī)則作用到標(biāo)注語料庫,直到找不出這樣的規(guī)則為止;
利用訓(xùn)練階段得到的條件隨機(jī)場(chǎng)模型對(duì)測(cè)試文本語料進(jìn)行人名識(shí)別并輸出每個(gè)標(biāo)記的邊緣概率;
對(duì)條件隨機(jī)場(chǎng)的識(shí)別結(jié)果進(jìn)行預(yù)處理;
對(duì)于邊緣概率低的人名以及未被識(shí)別的潛在人名利用人名可信度模型進(jìn)行識(shí)別;
對(duì)于識(shí)別的潛在人名,利用訓(xùn)練階段獲取的人名規(guī)則集進(jìn)行篩選,去除誤識(shí)別的人名;
利用局部統(tǒng)計(jì)算法對(duì)邊界識(shí)別錯(cuò)誤的人名進(jìn)行修正,并借助已經(jīng)正確識(shí)別的人名進(jìn)行擴(kuò)散操作標(biāo)記未被識(shí)別的人名;以及
擴(kuò)散識(shí)別,對(duì)多次出現(xiàn)的一個(gè)人名根據(jù)不同位置進(jìn)行分別識(shí)別。
優(yōu)選地,所述構(gòu)建條件隨機(jī)場(chǎng)模型包括以下步驟:
對(duì)各標(biāo)注語料進(jìn)行相應(yīng)的標(biāo)記轉(zhuǎn)換,使之符合條件隨機(jī)場(chǎng)所使用的語料庫格式,在此共定義了三組標(biāo)注轉(zhuǎn)換規(guī)則,每一組對(duì)應(yīng)條件隨機(jī)場(chǎng)的一類特征。
對(duì)標(biāo)注轉(zhuǎn)換后的語料進(jìn)行特征提取,其中將特征分為四類:上下文特征、人名用字特征、邊界詞特征、字符特征。
選擇特征模板,特征模板描述了我們?cè)谟?xùn)練和測(cè)試過程中將會(huì)使用哪些特征,它為特征函數(shù)的生成提供了一個(gè)統(tǒng)一的模式,通過特征模板的使用可以使條件隨機(jī)場(chǎng)方便的獲得人名識(shí)別所需要的所有特征函數(shù)。
通過設(shè)置閾值來選擇出現(xiàn)頻次高于該閾值的特征:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于華東師范大學(xué);,未經(jīng)華東師范大學(xué);許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310202667.5/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 限制條件解決方法、限制條件解決裝置、以及限制條件解決系統(tǒng)
- 制造條件設(shè)定系統(tǒng)及制造條件設(shè)定方法
- 成形條件確定方法及成形條件確定系統(tǒng)
- 成形條件設(shè)定裝置、成形條件設(shè)定方法及成形條件設(shè)定畫面
- 攝影條件設(shè)定設(shè)備、攝影條件設(shè)定方法和攝影條件設(shè)定程序
- 生理?xiàng)l件監(jiān)視系統(tǒng)、生理?xiàng)l件傳感器和生理?xiàng)l件儀表
- 成形條件設(shè)定裝置、成形條件設(shè)定方法及成形條件設(shè)定畫面
- 條件訪問設(shè)備
- 用于條件切換的裝置、方法、介質(zhì)和系統(tǒng)
- 基于條件分布的條件生成對(duì)抗網(wǎng)絡(luò)
- 隨機(jī)數(shù)生成設(shè)備及控制方法、存儲(chǔ)器存取控制設(shè)備及通信設(shè)備
- 隨機(jī)接入方法、用戶設(shè)備、基站及系統(tǒng)
- 真隨機(jī)數(shù)檢測(cè)裝置及方法
- 隨機(jī)元素生成方法及隨機(jī)元素生成裝置
- 數(shù)據(jù)交互方法、裝置、服務(wù)器和電子設(shè)備
- 一種隨機(jī)數(shù)發(fā)生器的多隨機(jī)源管理方法
- 用于彩票行業(yè)的隨機(jī)數(shù)獲取方法及系統(tǒng)
- 隨機(jī)接入方法、裝置及存儲(chǔ)介質(zhì)
- 偽隨機(jī)方法、系統(tǒng)、移動(dòng)終端及存儲(chǔ)介質(zhì)
- 模型訓(xùn)練方法、裝置和計(jì)算設(shè)備





