[發明專利]一種面向金融領域的中文命名實體識別方法及系統在審
| 申請號: | 202210647798.3 | 申請日: | 2022-06-08 |
| 公開(公告)號: | CN115146639A | 公開(公告)日: | 2022-10-04 |
| 發明(設計)人: | 羅康洋;萬德洪;孫科;張勝博;束金龍;雷鑫林;劉宇;耿然;鐵清木;張煒祺;張林 | 申請(專利權)人: | 上海金仕達軟件科技有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295 |
| 代理公司: | 北京紀凱知識產權代理有限公司 11245 | 代理人: | 陸惠中 |
| 地址: | 201203 上海市浦東新區*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 金融 領域 中文 命名 實體 識別 方法 系統 | ||
本發明提供一種面向金融領域的中文命名實體識別方法及系統,通過將待識別數據處理為單字符和/或多字符,并將所述單字符和/或所述多字符分別轉化為詞向量;根據FLAT(F l at?Latt ice Transformer)編碼模型,對所述單字符和/或多字符的位置信息進行相對位置編碼得到四個位置編碼方陣,其中,所述位置信息為每一個單字符和/或多字符都構建兩個位置列表,分別為Head和Tai l,Head為每個字符或詞匯的開始位置,Tai l為每個字符或詞匯的結束位置;將所述詞向量和所述位置編碼方陣輸入Transformer模型得到實體的標簽;將所述實體的標簽輸入判別模型得到實體類型的技術方案,提高了判斷實體類型準確性,提升了識別效率。
技術領域
本發明涉及中文命名實體識別技術,尤其涉及一種面向金融領域的中文命名實體識別方法及系統。
背景技術
在實際投資過程中,上市公司披露的各類公告能及時為投資者和專業機構研究員提供最新最全的投研參考訊息,因此獲取和分析公告包含的重要信息是他們每日的必要功課;但隨著金融科技的發展和全球資本市場的不斷擴大,在金融領域,每一天都有大量的公告產生,而與之形成強烈對比的是有限的人力以及人腦所能處理信息的極限能力;僅依靠傳統的人工方式已經無法滿足投研分析、風險控制、金融監管、事件關聯和融資融券等需求;因此如何對文本中感興趣的實體進行準確的識別和分類非常重要。
傳統中文NER模型,會將字符級序列數據作為模型的輸入,進行命名實體識別。
然而,傳統中文NER模型忽略了詞級序列數據所包含的重要信息,同時,傳統中文NER模型需要對識別出的實體分配類別標簽,但是當類別數較多時,標簽詞表規模很大,會進行數量巨多的分類任務,效率低下。
發明內容
本發明實施例提供一種面向金融領域的中文命名實體識別方法及系統,可以準確識別中文命名實體的類型。
本發明實施例的第一方面,提供一種面向金融領域的中文命名實體識別方法,包括:
將待識別數據處理為單字符和/或多字符,并將所述單字符和/或所述多字符分別轉化為詞向量;
根據FLAT(Flat-Lattice Transformer)模型,對所述單字符和/或多字符的位置信息進行相對位置編碼得到四個位置編碼方陣,其中,所述位置信息為每一個單字符和/或多字符都構建兩個位置列表,分別為Head和Tail,Head為每個字符或詞匯的開始位置,Tail為每個字符或詞匯的結束位置;
將所述詞向量和所述位置編碼方陣輸入Transformer模型得到實體的標簽;
將所述實體的標簽輸入判別模型得到實體類型,其中,所述實體類型為待識別數據中具有共同要素的實體的集合。
可選地,在第一方面的一種可能實現方式中,所述將所述單字符和/或所述多字符分別轉化為詞向量,包括:
對單字符采用BERT模型轉化為詞向量;
對多字符采用Embedding模型轉化為詞向量;
其中,所述BERT模型和所述Embedding模型組成特征表示層。
可選地,在第一方面的一種可能實現方式中,所述對所述單字符和/或多字符的位置信息進行相對位置編碼得到四個位置編碼方陣,包括:根據距離公式對Head和Tail進行處理,得到四個位置編碼方陣HH[i,j],HT[i,j],TH[i,j],TT[i,j]:
HH[i,j]=Head[i]-Head[j]
HT[i,j]=Head[i]-Tail[j]
TH[i,j]=Tail[i]-Head[j]
TT[i,j]=Tail[i]-Tail[j]
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海金仕達軟件科技有限公司,未經上海金仕達軟件科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210647798.3/2.html,轉載請聲明來源鉆瓜專利網。





