[發(fā)明專利]一種基于網(wǎng)絡(luò)分類的命名實體識別方法在審
| 申請?zhí)枺?/td> | 202011472395.7 | 申請日: | 2020-12-14 |
| 公開(公告)號: | CN112487816A | 公開(公告)日: | 2021-03-12 |
| 發(fā)明(設(shè)計)人: | 蘇延森;張寬宏;程凡 | 申請(專利權(quán))人: | 安徽大學(xué) |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/30;G06F40/211;G06F40/58;G06F16/332;G06F16/35 |
| 代理公司: | 安徽省合肥新安專利代理有限責(zé)任公司 34101 | 代理人: | 陸麗莉;何梅生 |
| 地址: | 230601 安*** | 國省代碼: | 安徽;34 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 網(wǎng)絡(luò) 分類 命名 實體 識別 方法 | ||
1.一種基于網(wǎng)絡(luò)分類的命名實體識別方法,其特征是按如下步驟進(jìn)行:
步驟一:命名實體分類模型訓(xùn)練:
步驟1.1:獲取T個命名實體樣本的文本數(shù)據(jù),并使用Word2Vec自然語言處理工具將所述文本數(shù)據(jù)轉(zhuǎn)換為向量數(shù)據(jù)Ψ=((x1,y1),(x2,y2),…,(xt,yt),…,(xT,yT)),(xt,yt)表示第t個命名實體樣本的向量數(shù)據(jù),其中,xt表示第t個命名實體樣本的屬性特征,且表示第t個命名實體樣本中第d個關(guān)于命名實體的屬性特征;yt表示第t個命名實體樣本的標(biāo)簽,t=1,2,…,T;
步驟1.2:對所述第t個命名實體樣本的屬性特征xt進(jìn)行標(biāo)準(zhǔn)化處理,得到第t個命名實體樣本的特征向量表示第t個命名實體樣本中第d個關(guān)于命名實體的特征;
步驟1.3:利用式(1)和式(2)分別構(gòu)建兩個目標(biāo)函數(shù)f1和f2:
minf1=Rr(Vs) (1)
式(1)中,Vs為從T個向量數(shù)據(jù)Ψ中選出的向量數(shù)據(jù),Rr(Vs)表示所選出的向量數(shù)據(jù)Vs的占T個向量數(shù)據(jù)Ψ的比例;
式(2)中,為利用所選出的向量數(shù)據(jù)Vs構(gòu)建的分類網(wǎng)絡(luò);為分類網(wǎng)絡(luò)的分類精度;
步驟1.4:以S個待選擇的命名實體樣本的向量數(shù)據(jù)的集合作為初始種群P={p1,...,pS},pS表示第S個待選擇的命名實體樣本的向量數(shù)據(jù)集合并作為一個個體;
采用長度為T的二進(jìn)制編碼對所初始種群P進(jìn)行編碼;若個體pS的二進(jìn)制編碼中的第i位為1,則表示第i個命名實體樣本的屬性特征xt被選中并用于構(gòu)造分類網(wǎng)絡(luò)
步驟1.5:定義當(dāng)前迭代次數(shù)為n,最大迭代次數(shù)為N;并初始化n=1;以初始種群P作為第n次迭代的父代種群Pn;
步驟1.6:通過二元錦標(biāo)賽從第n次迭代的父代種群Pn中隨機(jī)選出兩個個體px和py并分別構(gòu)建分類網(wǎng)絡(luò)和若分類網(wǎng)絡(luò)的精度高于分類網(wǎng)絡(luò)則從第n次迭代的父代種群Pn獲取高于分類網(wǎng)絡(luò)精度的所有個體,并從中隨機(jī)選擇一個個體pz;對個體py和pz進(jìn)行交叉變異,得到變異后的個體p′y和p′z;從個體py、p′y和p′z中選出分類網(wǎng)絡(luò)精度最高的個體來替代個體py;最后由替代后的個體py與個體px進(jìn)行交叉變異產(chǎn)生第n次迭代的子代P′n;
步驟1.7:將第n次迭代的父代種群Pn和第n次迭代的子代P′n進(jìn)行合并,得到第n次迭代的合并種群,利用式(3)得到第n次迭代的合并種群中任意個體pn的重要性IMP(pn):
IMP(pn)=α×Acc(pn)+(1-α)×(-Red(pn)) (3)
式(3)中,α為折中因子,Acc(pn)為個體pn的精度,Red(pn)為個體pn的冗余度,并有:
Red(pn)=(a1×b1+a2×b2+...+ai×bi+...+am×bm)/m (4)
式(4)中,m為第n次迭代的合并種群中除個體pn以外的個體數(shù)目;ai為個體pn與第n次迭代的合并種群中除個體pn以外的第i個個體在源空間的冗余度,并通過個體pn與第i個個體選擇的相同命名實體樣本的數(shù)目除以T得到,i∈{1,..,m};bi為個體pn與第i個個體在精度目標(biāo)空間的冗余度,由式(5)獲得:
式(5)中,Acc(i)表示第i個個體所構(gòu)建的分類網(wǎng)絡(luò)的精度,Acc(pn)表示個體pn所構(gòu)建的分類網(wǎng)絡(luò)的精度;
步驟1.8:根據(jù)式(3)得到第n次迭代的合并種群中所有個體pn的重要性排序,并選擇出前S個個體作為第n+1次迭代的父代種群Pn;
步驟1.9:令n+1賦值給n,并判斷n>N是否成立,若成立,則將第N次迭代的父代種群中分類網(wǎng)絡(luò)精度最高的個體所對應(yīng)的命名實體樣本的向量數(shù)據(jù)選出并用于構(gòu)造最優(yōu)網(wǎng)絡(luò)分類器,執(zhí)行步驟二,否則,返回步驟1.6執(zhí)行;
步驟二:命名實體識別:
步驟2.1:輸入待識別的命名實體樣本的文本數(shù)據(jù),按照步驟1.1和步驟1.2進(jìn)行處理,并得到待測樣本的特征向量;
步驟2.3:利用所述最優(yōu)網(wǎng)絡(luò)分類器對待測樣本的的特征向量進(jìn)行分類,所得到的標(biāo)簽表示待測樣本所對應(yīng)的命名實體。
2.根據(jù)權(quán)利要求1所述的一種基于網(wǎng)絡(luò)分類的命名實體識別方法,其特征是,所述式(6)中的分類網(wǎng)絡(luò)是采用歐幾里得距離的k關(guān)聯(lián)最優(yōu)圖的構(gòu)造方式,其步驟包括:
對于特征向量利用式(6)求得第t個命名實體樣本中d個關(guān)于命名實體的特征向量與第i個命名實體樣本中d個關(guān)于命名實體的特征向量的歐式距離dti,并選擇距離最近的k個同一類別的命名實體建立網(wǎng)絡(luò)連接,從而構(gòu)成分類網(wǎng)絡(luò):
式(6)中,表示第t個命名實體樣本中第d個關(guān)于命名實體的特征向量。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于安徽大學(xué),未經(jīng)安徽大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011472395.7/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 網(wǎng)絡(luò)和網(wǎng)絡(luò)終端
- 網(wǎng)絡(luò)DNA
- 網(wǎng)絡(luò)地址自適應(yīng)系統(tǒng)和方法及應(yīng)用系統(tǒng)和方法
- 網(wǎng)絡(luò)系統(tǒng)及網(wǎng)絡(luò)至網(wǎng)絡(luò)橋接器
- 一種電力線網(wǎng)絡(luò)中根節(jié)點(diǎn)網(wǎng)絡(luò)協(xié)調(diào)方法和系統(tǒng)
- 一種多網(wǎng)絡(luò)定位方法、存儲介質(zhì)及移動終端
- 網(wǎng)絡(luò)裝置、網(wǎng)絡(luò)系統(tǒng)、網(wǎng)絡(luò)方法以及網(wǎng)絡(luò)程序
- 從重復(fù)網(wǎng)絡(luò)地址自動恢復(fù)的方法、網(wǎng)絡(luò)設(shè)備及其存儲介質(zhì)
- 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法、裝置及存儲介質(zhì)
- 網(wǎng)絡(luò)管理方法和裝置





