[發明專利]一種融合自注意力與層級殘差記憶網絡的實體識別方法在審
| 申請號: | 202211066882.2 | 申請日: | 2022-09-01 |
| 公開(公告)號: | CN115392252A | 公開(公告)日: | 2022-11-25 |
| 發明(設計)人: | 陳平華;林浩 | 申請(專利權)人: | 廣東工業大學 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 長沙軒榮專利代理有限公司 43235 | 代理人: | 張慧敏 |
| 地址: | 510000 *** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 融合 注意力 層級 記憶 網絡 實體 識別 方法 | ||
1.一種基于融合深度自注意力網絡與層級殘差雙向長短期記憶網絡的實體識別方法,其特征在于包含以下步驟:
S1:獲取目標領域的非結構化文本語料數據集,通過數據集預處理步驟去除重復值,利用jieba分詞工具對文本進行分詞,而后設置停用詞集合;
S2:經S1后進行人工標注實體,從而得到語料庫中的大量實體所有構建樣本集,每一個樣本都是一個字/詞,擁有標簽值;
S3:將樣本集和劃分為訓練集和測試集,從工程化的角度考慮,若訓練集中的實體個數大于閾值T,則抽取訓練集的10%作為驗證集,下載公開預訓練模型提取出的詞向量,篩選出屬于樣本集分詞后的所有詞語的詞向量;
S4:搭建融合自注意力機制和層級殘差雙向長短期記憶網絡的模型,利用訓練集樣本中的詞向量作為特征輸入(可理解為輸入前有一個嵌入層),以一個布爾值作為標簽,其表示是否是實體,對整個網絡模型進行訓練;
S5:將驗證集(如有)數據輸入訓練好的模型,同樣以其詞向量作為特征輸入,查看結果,以此調節超參數,得到更符合現實世界情況的參數設置,從而改善模型性能;
S6:經S4~S5后可得到在基于所提供的目標領域數據中性能最佳的模型,將測試集數據輸入模型后預測最終結果,并與人工標注的標簽進行比較,進而得到模型在測試集上的準確率。
2.根據權利要求1所述的一種融合深度自注意力網絡與層級殘差雙向長短期記憶網絡的實體識別方法,其特征在于步驟S1中:所述數據獲取及清洗過程具體步驟為:
S11、構建一個用于本次訓練實體識別模型的語料數據集,從目標領域數據中得到相應的語料集,語料在導入到正式表以后,在進行自然語言處理之前需要做適當的語料清洗,清洗后的語料將會變得更加“干凈”并有利于后期分析;
S12、清理空白字符,目的是將不可見字符或空格字符更換成單一的空格字符,并將全角字符更換成半角字符,因為全角字符統一至半角字符之后,更有利于程序處理;
S13、XML反轉義,即將轉義的字符還原成原始字符;例如:nbsp;對應著空格,更為復雜一點的是“#”開頭和“x”開頭的轉義字符,需要通過獲得10進制或者16進制數值進行還原;
S14、利用正則匹配規則將符合規則的字符串替換成其他字符串,用于清理多余的標點符號,或者不符合規格的符號標記,這些替換規則可以存儲于數據表中,在系統加載前,全部裝入內存之中,以加快處理速度;
S15、對清洗完畢的語料集使用jieba工具包進行分詞,并設置相應的停用詞加入jieba庫中,而后得到相應的分割后的語料數據集。
3.根據權利要求1所述的一種融合深度自注意力網絡與層級殘差雙向長短期記憶網絡的實體識別方法,其特征在于步驟S2的具體方法為:
S21、將S1數據預處理階段的結果在經S21劃分好訓練集/測試集/驗證集后,采用“BMEWO”標簽體系生成訓練數據,
其中B表示“開始”,M表示“Middle”,E表示“結束”,W表示單個實體,O表示“其他”,即非實體部分。
4.根據權利要求1所述的一種融合深度自注意力網絡與層級殘差雙向長短期記憶網絡的實體識別方法,其特征在于步驟S3中的具體方法為:
S31、確定訓練集、測試集所占整個語料數據集的比例;
S32、從網絡上下載公開預訓練模型所訓練得到的詞向量作為每個單詞的特征輸入,即通過對應的Embedding層做詞向量的處理,更多的時候,使用這些網上預訓練好的詞向量會帶來更優的性能,下載好后,去詞向量文件中查表,得到詞表中單詞對應的權重weight,在詞向量文件中沒匹配到的字詞則繼續保留全0向量作為輸入。
5.根據權利要求1所述的一種融合深度自注意力網絡與層級殘差雙向長短期記憶網絡的實體識別方法,其特征在于步驟S4中的具體步驟為:
S41、搭建融合自注意力機制和層級殘差雙向長短期記憶網絡的模型為將上述S3得到的詞嵌入向量作為輸入,經網絡得到輸出,以此得到預測標簽值;
S42、初始化網絡模型參數,并將訓練集中的數據輸入網絡模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣東工業大學,未經廣東工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211066882.2/1.html,轉載請聲明來源鉆瓜專利網。





