[發明專利]一種中文命名實體的識別方法有效
| 申請號: | 201911173134.2 | 申請日: | 2019-11-26 |
| 公開(公告)號: | CN111091002B | 公開(公告)日: | 2023-06-09 |
| 發明(設計)人: | 朱鵬;程大偉;楊芳洲;羅軼鳳;錢衛寧;周傲英 | 申請(專利權)人: | 華東師范大學;上海瞰點科技有限責任公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/211;G06F16/951;G06F16/33 |
| 代理公司: | 上海藍迪專利商標事務所(普通合伙) 31215 | 代理人: | 徐筱梅;張翔 |
| 地址: | 200241 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 中文 命名 實體 識別 方法 | ||
本發明公開了一種中文命名實體的識別方法,其特點是采用CWS和POS標簽信息用于單詞關系推斷,通過對抗學習中包含的NER、CWS和POS標記任務中提取與實體邊界有關的公共信息,以及多任務學習把NER、CWS和POS三個任務放在一起訓練,其中每個任務都含有多個自我注意力機制的組件,以便從各種嵌入中提取特定任務的特定信息,并將該信息與從對抗學習中獲得的通用信息進行適當組合來識別實體。本發明與現有技術相比具有為中文里面的實體識別和應用工作提供了一個新的解決方案,方法簡便,效率高。
技術領域
本發明涉及自然語言處理技術領域,尤其是一種具有多任務對抗學習和自我注意能力機制的中文命名實體的識別方法。
背景技術
命名實體識別(NER)是初步且重要的自然語言處理(NLP)中的任務,NER任務的主要目的是從非結構化文本中識別人的名字,地點,組織和日期等作為實體。許多下游NLP任務或應用程序都依賴NER進行信息提取,例如問題回答,關系提取,事件提取和實體鏈接等等。NER任務可視為序列標記任務,眾所周知,由于難以確定實體邊界,因此從非結構化文本中識別命名實體具有挑戰性。識別中文命名實體更加困難,因為句子中包含的中文字符不會用空格隔開,并且中文中沒有明確的單詞邊界。人們通常應先執行中文分詞(CWS)來確定單詞邊界,然后再執行其他中文文本處理任務。而且,中文實體可能由多個分詞組成,同時確定多個分詞屬于一個實體是不簡單的,因為很難確定這之間的關系。因此,對于中國的NER而言,至關重要的是,使用其他信息來幫助確定實體邊界,利用CWS信息可以幫助識別單詞邊界,而采用與分段單詞關系有關的信息可以幫助將緊密相關的單詞正確地分在一起以進行實體識別。對句子進行句法分析可以為將分段單詞固定在一起提供有效的信息,但是通常很難獲得高度精確的句法分析結果,詞性(POS)標記信息很容易獲得,可以用來推斷連續詞的語義關系。
NER、CWS和POS標記任務包含一些特定于任務的信息和一些任務共享的信息,這些信息都很有幫助用于確定實體邊界。例如,NER任務將從句子“美麗生態是上市公司”中識別“美麗生態”為實體,這將被視為兩個獨立的實體在CWS和POS標記任務中使用“美麗”和“生態”兩個詞,而這三個任務將為“是”,“列出”和“公司”標識相同的邊界。將單詞“美麗”與單詞“生態”關聯為“組織”實體需要捕獲它們之間的依賴關系?!敖ㄔ烀利惿鷳B城市”一句中不應將“美麗”和“生態”視為實體。
現有技術的統計模型不能顯式地對遠程依賴性進行建模,并且基于BiLSTM的模型(即雙向長期短期內存),即使可以對遠程依賴性進行建模,也無法直接關聯兩個字符。
發明內容
本發明的目的是針對現有技術的不足而設計的一種中文命名實體的識別方法,采用對抗式多任務學習的NER模型,以集成CWS和POS標記中文NER的信息用于單詞關系推斷方法,在多任務對抗學習的基礎上,結合中文分詞和詞性(POS)標簽信息與經典BiLSTM-CRF模型相結合,通過對抗學習中包含的NER,CWS和POS標記任務中提取與實體邊界有關的公共信息,而且通過多任務學習把NER,CWS和POS三個任務放在一起訓練,其中每個任務都含有多個自我注意力機制的組件,以便從各種嵌入中提取特定任務的特定信息,并將該信息與從對抗學習中獲得的通用信息進行適當組合來識別實體,為中文里面的實體識別和應用工作提供了一個新的解決方案。
本發明的目的是這樣實現的:一種中文命名實體識別方法,其特點是該方法按下述步驟進行中文命名實體的識別:
步驟1,定義網絡爬蟲爬取的金融新聞中要識別的命名實體類型:根據不同的實體類型形成不同的標簽;
步驟2,利用FastText工具在爬取的無標注的金融新聞中進行學習,獲取固定長度的詞向量并組成相應的詞匯表;
步驟3,選擇步驟1中爬取的金融新聞中的部分高質量的新聞,進行人工標注;
步驟4,對步驟3中選擇的高質量的新聞,利用開源工具對新聞進行分詞標注和詞性標注;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華東師范大學;上海瞰點科技有限責任公司,未經華東師范大學;上海瞰點科技有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911173134.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種核醫學檢查監控窗
- 下一篇:一種包裝機的牽膜機構





