[發明專利]一種面向金融領域的中文命名實體識別方法及系統在審
| 申請號: | 202210647798.3 | 申請日: | 2022-06-08 |
| 公開(公告)號: | CN115146639A | 公開(公告)日: | 2022-10-04 |
| 發明(設計)人: | 羅康洋;萬德洪;孫科;張勝博;束金龍;雷鑫林;劉宇;耿然;鐵清木;張煒祺;張林 | 申請(專利權)人: | 上海金仕達軟件科技有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295 |
| 代理公司: | 北京紀凱知識產權代理有限公司 11245 | 代理人: | 陸惠中 |
| 地址: | 201203 上海市浦東新區*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 金融 領域 中文 命名 實體 識別 方法 系統 | ||
1.一種面向金融領域的中文命名實體識別方法,其特征在于,包括:
將待識別數據處理為單字符和/或多字符,并將所述單字符和/或所述多字符分別轉化為詞向量;
根據FLAT(Flat-Lattice Transformer)模型,對所述單字符和/或多字符的位置信息進行相對位置編碼得到四個位置編碼方陣,其中,所述位置信息為每一個單字符和/或多字符都構建兩個位置列表,分別為Head和Tail,Head為每個字符或詞匯的開始位置,Tail為每個字符或詞匯的結束位置;
將所述詞向量和所述位置編碼方陣輸入Transformer模型得到實體的標簽;
將所述實體的標簽輸入判別模型得到實體類型,其中,所述實體類型為待識別數據中具有共同要素的實體的集合。
2.根據權利要求1所述的方法,其特征在于,所述將所述單字符和/或所述多字符分別轉化為詞向量,包括:
對單字符采用BERT模型轉化為詞向量;
對多字符采用Embedding模型轉化為詞向量;
其中,所述BERT模型和所述Embedding模型組成特征表示層。
3.根據權利要求1或2所述的方法,其特征在于,所述對所述單字符和/或多字符的位置信息進行相對位置編碼得到四個位置編碼方陣,包括:根據距離公式對Head和Tail進行處理,得到四個位置編碼方陣
HH[i,j],HT[i,j],TH[i,j],TT[i,j]:
HH[i,j]=Head[i]-Head[j]
HT[i,j]=Head[i]-Tail[j]
TH[i,j]=Tail[i]-Head[j]
TT[i,j]=Tail[i]-Tail[j]
其中,i為第i個字符,j為第j個字符,Head[i]為字符i的頭位置,Head[j]為字符j的開始位置,Tail[i]為字符i的結束位置,Tail[j]為為字符j的尾位置,,HH[i,j]為第i個字符的開始位置字符與第j個字符的開始位置字符的距離,HT[i,j]為第i個字符的開始位置字符與第j個字符的結束位置字符的距離,TH[i,j]為第i個字符的位置字符字符與第j個字符的開始位置字符的距離,TT[i,j]為第i個字符的結束位置字符與第j個字符的結束位置字符的距離。
4.根據權利要求3所述的方法,其特征在于,所述Transformer模型,包括:自注意力層、兩個求和標準化層、全連接層和條件隨機場層。
5.根據權利要求1、2、4任一所述的方法,其特征在于,所述將所述詞向量和所述位置編碼方陣輸入Transformer模型得到實體的標簽,包括:將所述詞向量和所述位置編碼方陣作為自注意力層的輸入,隨后將自注意力層的輸出和詞向量作為第一個求和標準化層的輸入,將所述第一個求和標準化層的輸出作為全連接層的輸入,將全連接層的輸出和第一個求和標準化層的輸出作為第二個求和標準化的層的輸入,將第二個求和標準化的層的輸出通過條件隨機場層解碼,得到實體的標簽。
6.根據權利要求5所述的方法,其特征在于,所述得到實體的標簽,包括:根據BIOES的方式對實體打標簽,其中,B為實體的開始位置,I為實體的中間位置,E為實體的結束位置,S為一個詞或字單獨形成的一個實體,O為其他實體類型。
7.根據權利要求6所述的方法,其特征在于,所述將所述實體的標簽輸入判別模型得到實體類型,包括:將條件隨機場層輸出的實體的標簽作為全連接層的輸入,得到實體類型;
其中,所述判別模型為一個全連接層。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海金仕達軟件科技有限公司,未經上海金仕達軟件科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210647798.3/1.html,轉載請聲明來源鉆瓜專利網。





