[發明專利]一種基于條件隨機場的中文人名自動識別方法在審
| 申請號: | 201310202667.5 | 申請日: | 2013-05-27 |
| 公開(公告)號: | CN104182423A | 公開(公告)日: | 2014-12-03 |
| 發明(設計)人: | 呂釗;高維維 | 申請(專利權)人: | 華東師范大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 隆天國際知識產權代理有限公司 72003 | 代理人: | 黃嵩泉;呂俊清 |
| 地址: | 200241 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 條件 隨機 中文 人名 自動識別 方法 | ||
1.一種基于條件隨機場的中文人名自動識別方法,其特征在于,包括以下步驟:?
構建條件隨機場模型;?
獲取人名規則集,首先利用初始狀態的標注器來標注文本,接下來采用轉換模板和目標函數,通過與已經正確標注過的參考語料相比較得到多條候選的轉換模板,然后從中找出應用一條轉換模板后可產生標注錯誤次數最少的轉換式,作為一條新的標注規則作用到標注語料庫,直到找不出這樣的規則為止;?
利用訓練階段得到的條件隨機場模型對測試文本語料進行人名識別并輸出每個標記的邊緣概率;?
對條件隨機場的識別結果進行預處理;?
對于邊緣概率低的人名以及未被識別的潛在人名利用人名可信度模型進行識別;?
對于識別的潛在人名,利用訓練階段獲取的人名規則集進行篩選,去除誤識別的人名;?
利用局部統計算法對邊界識別錯誤的人名進行修正,并借助已經正確識別的人名進行擴散操作標記未被識別的人名;以及?
擴散識別,對多次出現的一個人名根據不同位置進行分別識別。?
2.如權利要求1所述的一種基于條件隨機場的中文人名自動識別方法,其特征在于:所述構建條件隨機場模型包括以下步驟:?
對各標注語料進行相應的標記轉換,使之符合條件隨機場所使用的語料庫格式,在此共定義了三組標注轉換規則,每一組對應條件隨機場的一類特征。?
對標注轉換后的語料進行特征提取,其中將特征分為四類:上下文特征、人名用字特征、邊界詞特征、字符特征。?
選擇特征模板,特征模板描述了我們在訓練和測試過程中將會使用哪些特征,它為特征函數的生成提供了一個統一的模式,通過特征模板的使用可以使條件隨機場方便的獲得人名識別所需要的所有特征函數。?
通過設置閾值來選擇出現頻次高于該閾值的特征:?
其中Γ表示訓練樣本,C表示特征集,K即為設定的閾值。?
3.如權利要求1所述的一種基于條件隨機場的中文人名自動識別方法,其特征在于:所述獲取人名規則集包括以下步驟:?
利用條件隨機場進行人名識別,識別結果作為錯誤驅動學習的訓練語料庫。?
將人名識別結果和正確的人工標注結果進行比較,分析錯誤識別的案例,并總結規則。?
依次將第二步總結的各條規則應用到人名識別結果的副本中,根據各條規則對人名識別正確率貢獻的大小進行由高到低進行排序。?
將貢獻最大的規則作用到已經識別的文本重新進行人名標注,得到一個更新的已識別文本。?
4.如權利要求1所述的一種基于條件隨機場的中文人名自動識別方法,其特征在于:所述對條件隨機場的識別結果進行預處理包括:?
將條件隨機場的識別結果轉換為便于后續處理的格式;以及?
對于轉換后的結果,利用收集的中文詞典采用簡單的基于最長匹配的分詞方法對轉換后的結果進行詞語切分。?
5.如權利要求4所述的一種基于條件隨機場的中文人名自動識別方法,其特征在于:所述中文詞典由標準中文詞集、沖突詞集以及關聯詞集三部分組成;?
標準中文詞集包含的詞既不能是人名,也不可以作為人名的部分出現,該詞集將作為分詞器的詞集使用;?
沖突詞集包含的詞可以作為人名的部分出現,而它本身又不是人名;?
關聯詞集包括那些既可以是人名又可以是地名或其他實體名的詞及其相關的表征詞。?
6.如權利要求1所述的一種基于條件隨機場的中文人名自動識別方法,其特征在于:所述對于邊緣概率低的人名以及未被識別的潛在人名利用人?名可信度模型進行識別包括:?
將姓和名統一看待,其定義如下:?
TP-Name代表外國音譯人名;?
S代表單個漢字的人名;?
F、M、L分別代表外國音譯人名首字、中字和尾字。?
7.如權利要求6所述的一種基于條件隨機場的中文人名自動識別方法,其特征在于:所述對于邊緣概率低的人名以及未被識別的潛在人名利用人名可信度模型進行識別還包括:并利用β來提高長字符串作為人名的可信度,β定義如下:?
則外國音譯人名TP-Name的可信度P(TP-Name)定義如下:?
P(TP-Name)=Pf(F)*Pm(M)*Pl(L)*β?。
8.如權利要求7所述的一種基于條件隨機場的中文人名自動識別方法,其特征在于:設定位于左右邊界詞之間及邊界詞之外的音譯人名的可信度閾值分別為0.39和0.592。?
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華東師范大學;,未經華東師范大學;許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310202667.5/1.html,轉載請聲明來源鉆瓜專利網。





