[發明專利]一種基于網絡分類的命名實體識別方法在審
| 申請號: | 202011472395.7 | 申請日: | 2020-12-14 |
| 公開(公告)號: | CN112487816A | 公開(公告)日: | 2021-03-12 |
| 發明(設計)人: | 蘇延森;張寬宏;程凡 | 申請(專利權)人: | 安徽大學 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/30;G06F40/211;G06F40/58;G06F16/332;G06F16/35 |
| 代理公司: | 安徽省合肥新安專利代理有限責任公司 34101 | 代理人: | 陸麗莉;何梅生 |
| 地址: | 230601 安*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 網絡 分類 命名 實體 識別 方法 | ||
本發明公開了一種基于網絡分類的命名實體識別方法,包括:1:輸入命名實體訓練樣本文本數據并將其轉化為向量數據;步驟2:對所述的命名實體訓練樣本數據進行預處理;步驟3:通過迭代選擇部分樣本構造網絡訓練命名實體識別模型;命名實體識別包括:步驟4:輸入待識別命名實體樣本數據;步驟5:對所述待識別命名實體樣本數據進行預處理;步驟6:通過命名實體分類模型對所待識別命名實體樣本數據進行識別,判斷所屬命名實體的類別。本發明能快速有效從海量的文本中提取命名實體的關鍵屬性并識別出該實體的類別,提高命名實體識別的效率并為信息提取、問答系統、句法分析、機器翻譯等提供基礎。
技術領域
本發明涉及自然語言處理技術與命名實體識別領域,尤其涉及一種基于網絡分類的命名實體識別方法。
背景技術
命名實體識別(Named Entity Recognition,簡稱NER),又稱作“專名識別”,是指識別文本中具有特定意義的實體,主要包括人名、地名、機構名、專有名詞等。通常包括兩部分:(1)實體邊界識別;(2)確定實體類別(人名、地名、機構名或其他)。NER是NLP中一項基礎性關鍵任務。從自然語言處理的流程來看,NER可以看作詞法分析中未登錄詞識別的一種,是未登錄詞中數量最多、識別難度最大、對分詞效果影響最大問題。同時NER也是關系抽取、事件抽取、知識圖譜、機器翻譯、問答系統等諸多NLP任務的基礎。
命名實體識別信息抽取任務的焦點,在實際生產中需求很迫切,但命名實體的數量無窮,構詞靈活,類別模糊等特性又使得命名實體識別做起來很難。傳統的分類算法僅僅考慮到數據之間的物理特性(如相似性,距離,分布等),沒有考慮到數據之間的語義特性(如文本中可能存在上下文語義信息)。
傳統分類學習方法,例如SVM和一些其它基于網絡的分類算法,在實際實現中需要使用所有訓練數據,龐大的數據量中存在的噪音會使得命名實體的識別效率降低。
發明內容
本發明為克服現有技術的不足之處,提出一種基于網絡分類的命名實體識別方法,以期能通過選擇部分命名實體識別樣本構造分類網絡并對待測命名實體樣本進行識別,從而提高命名實體的識別效率,進而為信息提取、問答系統、句法分析、機器翻譯等提供技術支持。
為了達到上述目的,本發明采用的技術方案為:
本發明一種基于網絡分類的命名實體識別方法的特點是按如下步驟進行:
步驟一:命名實體分類模型訓練:
步驟1.1:獲取T個命名實體樣本的文本數據,并使用Word2Vec自然語言處理工具將所述文本數據轉換為向量數據Ψ=((x1,y1),(x2,y2),…,(xt,yt),…,(xT,yT)),(xt,yt)表示第t個命名實體樣本的向量數據,其中,xt表示第t個命名實體樣本的屬性特征,且表示第t個命名實體樣本中第d個關于命名實體的屬性特征;yt表示第t個命名實體樣本的標簽,t=1,2,…,T;
步驟1.2:對所述第t個命名實體樣本的屬性特征xt進行標準化處理,得到第t個命名實體樣本的特征向量表示第t個命名實體樣本中第d個關于命名實體的特征;
步驟1.3:利用式(1)和式(2)分別構建兩個目標函數f1和f2:
min f1=Rr(Vs) (1)
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于安徽大學,未經安徽大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011472395.7/2.html,轉載請聲明來源鉆瓜專利網。





