[發明專利]基于小粒度策略混合模型的漢語命名實體識別方法及系統在審
| 申請號: | 202010697183.2 | 申請日: | 2020-07-20 |
| 公開(公告)號: | CN111881685A | 公開(公告)日: | 2020-11-03 |
| 發明(設計)人: | 王超;陳丹偉;熊英超 | 申請(專利權)人: | 南京中孚信息技術有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/289;G06F40/169 |
| 代理公司: | 南京中盟科創知識產權代理事務所(特殊普通合伙) 32279 | 代理人: | 江冬萍 |
| 地址: | 210000 江蘇省南京市浦口區江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 粒度 策略 混合 模型 漢語 命名 實體 識別 方法 系統 | ||
1.基于小粒度策略混合模型的漢語命名實體識別方法,應用于基于小粒度策略混合模型的漢語命名實體識別系統,其特征在于,該方法包括:
S1、預先配置待識別語料文本和待標注語料文本;
S2、采用預設規則對待標注語料文本進行預處理,并標注出待標注語料文本中的分詞與詞性;
S3、通過人工方式將訓練集中的需要識別的實體采用預設方法在小粒度策略下進行訓練集標注;
S4、利用測試集對訓練后的識別模型的性能進行測評;
S5、將待識別語料文本輸入訓練后的識別模型,得到命名實體識別初步結果,并通過預先構建好的詞典對命名實體識別初步結果進行二次識別。
2.根據權利要求1所述的基于小粒度策略混合模型的漢語命名實體識別方法,其特征在于,所述采用預設規則采用HANLP工具實現對待標注語料文本的分詞和詞性標注。
3.根據權利要求1所述的基于小粒度策略混合模型的漢語命名實體識別方法,其特征在于,通過人工方式將訓練集中的需要識別的實體采用預設方法在小粒度策略下進行訓練集標注的步驟還包括:
采用BMEWO標注方法在小粒度策略下標注訓練集,得到訓練集的實體標注序列,并以詞作為待標注語料文本的切分粒度;
其中,B表示實體開始;
M表示實體中部;
E表示除實體結尾;
W代表單個實體;
O代表非實體。
4.根據權利要求1所述的基于小粒度策略混合模型的漢語命名實體識別方法,其特征在于,所述識別模型為CRFs模型,所述CRFs模型作為序列數據的分割和標注模型;
所述CRFs模型的定義公式為:
其中,X={x1,x2,x3…,xn}為詞語序列,Y={y1,y2,y3…,yn}為條件概率,n為詞語序列的長度;
式中,Z(x)為標準化因子,其表達式為:
其中,hk為通過訓練得到的第k個特征函數的權重,反映特征函數代表的事件發生的可能性,fk(yi,yi-1,x)為特征函數,其表現形式為:
若yi-1=u,yi=v,則fk(yi,yi-1,x)=0;
若其他情況則fk(yi,yi-1,x)=1。
5.根據權利要求1所述的基于小粒度策略混合模型的漢語命名實體識別方法,其特征在于,對識別模型進行訓練,并利用測試集對訓練后的識別模型的性能進行測評的步驟還包括:
采用訓練集對識別模型進行訓練;
采用測試集對識別模型進行測試;
其中,采用召回率R、準確率P及F值三個指標對訓練后的識別模型的性能進行評價。
6.根據權利要求5所述的基于小粒度策略混合模型的漢語命名實體識別方法,其特征在于,所述召回率R的計算公式如下:
其中,Dn為正確識別的實體個數,Sn為手工標注的實體個數。
7.根據權利要求5所述的基于小粒度策略混合模型的漢語命名實體識別方法,其特征在于,所述準確率P的計算公式如下:
其中,Dn為正確識別的實體個數,Tn為識別的實體總個數。
8.根據權利要求5所述的基于小粒度策略混合模型的漢語命名實體識別方法,其特征在于,所述F值的計算公式如下:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京中孚信息技術有限公司,未經南京中孚信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010697183.2/1.html,轉載請聲明來源鉆瓜專利網。





