[發明專利]一種藏文命名實體的標注方法有效
| 申請號: | 201810059120.7 | 申請日: | 2018-01-22 |
| 公開(公告)號: | CN108268447B | 公開(公告)日: | 2020-12-01 |
| 發明(設計)人: | 夏建華;張進兵;韓立新 | 申請(專利權)人: | 河海大學 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06K9/62 |
| 代理公司: | 南京縱橫知識產權代理有限公司 32224 | 代理人: | 董建林 |
| 地址: | 211100 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 藏文 命名 實體 標注 方法 | ||
1.一種藏文命名實體的標注方法,其特征在于,該方法包括如下步驟:
對未標注數據進行規范化處理,得到未標注的規范化語料,將新標注的命名實體加入到原標注語料;
利用標注語料訓練名詞短語標注器Semi-Markov CRFs_1,再利用其對規范化語料進行名詞短語的分割和標注;
讀取標注語料和規范化語料,建立字、詞、短語和命名實體聯合的CBOW模型,通過CBOW模型的訓練得到語料矩陣和名詞性的字、詞、短語和命名實體的向量空間;
基于向量空間,利用KNN算法找到未標注名詞短語的K個最近鄰的標注命名實體,計算未標注名詞短語與K個最近鄰的標注命名實體之間的cosine相似度,然后先從K近鄰中選擇相似值大于預設閾值λ的q個命名實體,0≤q≤K,如果q0,則把未標注名詞短語的命名實體類別取為K個最近鄰中最大cosine相似度的命名實體的類別;將新標注的命名實體加入到標注語料,使規范化語料得到部分標注;
讀取標注語料的序列數據,對細粒度標注器Semi-Markov CRFs_2進行訓練;再利用Semi-Markov CRFs_2對規范化語料中未標注的命名實體進行標注,實現命名實體的全標注。
2.根據權利要求1藏文命名實體的標注方法,其特征在于,所述規范化處理包括:分詞和語句規范化、標點符號規范化、分詞與詞性標注規范化和去停用詞規范化。
3.根據權利要求1藏文命名實體的標注方法,其特征在于,所述語料矩陣的獲取方法如下:
首先,構建一個包含字、詞、短語和命名實體四個子集合的字典,將字典的每個元素進行向量初始化操作:給每個元素賦值一個400~600維的隨機向量,每個維度取值限制在[-1,1];
其次,建立一個長度為5的滑動窗口,從標注語料和已名詞標注的規范化語料中順序地滑動讀取數據,得到窗口數據win=x-2x-1x0x+1x+2,其中0表示窗口的中心位置,x0表示目標詞;
用Context={x±p,p=1,2}表示x0的上下文,并進行x0的上下文詞向量的預處理,對x±p為詞、短語或命名實體時,分別作如下處理:
當x±p∈{字},x±p的向量取值為字向量charachervector;
當x±p∈{詞},x±p的向量取值為詞向量wordvecotr,公式如下:
式中,wordvecotr表示x±p屬于詞時對應的向量,characterjvector表示詞中第j個藏文字的向量,|N±p|表示目標詞x0的某個上下文詞x±p包含的字的個數;
當x±p∈{短語},x±p的向量取值為短語向量chunkingvector,公式如下:
其中,chunkingvector表示x±p屬于短語時對應的向量,表示短語中第q個藏文詞的向量,|N′±p|表示目標詞x0的某個上下文詞x±p包含的詞個數;
當x±p∈{命名實體},則按其屬于上述字、詞、短語的對應類別進行相應處理;
然后,計算輸入到CBOW的x0的上下文的向量均值Context(x0),公式如下:
式中,Context(x0)表示CBOW模型的輸入;p=1,2;
利用對比噪音估計,建立CBOW學習算法的目標函數,公式如下:
式中,θ表示Context(x0)的權重向量;D表示語料庫;表示激活函數;x′0表示負樣本;NCE(x′0)表示負樣本集合,x0不屬于此集合;Context(x′0)表示負樣本的上下文的詞向量均值,負樣本是指窗口中的原目標詞被替換為x′0;
最后,利用隨機梯度上升算法學習參數,更新上下文詞向量;當CBOW遍歷整個語料,得到語料矩陣。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于河海大學,未經河海大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810059120.7/1.html,轉載請聲明來源鉆瓜專利網。





