[發明專利]一種基于預訓練語言模型的實體識別方法在審
| 申請號: | 202210361634.4 | 申請日: | 2022-04-07 |
| 公開(公告)號: | CN114647715A | 公開(公告)日: | 2022-06-21 |
| 發明(設計)人: | 戴國駿;蔣世豪;葉晨;張樺;吳以凡;支浩仕 | 申請(專利權)人: | 杭州電子科技大學 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/335;G06F16/35;G06F40/30;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 杭州君度專利代理事務所(特殊普通合伙) 33240 | 代理人: | 朱月芬 |
| 地址: | 310018 浙*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 訓練 語言 模型 實體 識別 方法 | ||
本發明公開了一種基于預訓練語言模型的實體識別方法。本發明涉及深度學習,自然語言處理任務中的預訓練語言模型和數據集成領域中的實體識別子任務。本發明添加了對于實體識別任務本身獨特需求的關注,具體是提出一個關注相似片段和數字信息片段的聯合實體識別模型,通過一個感知相似片段的編碼器和一個感知數字片段的編碼器,可以有效處理預訓練語言模型在小訓練集上注意力分散的問題,從而使模型能夠更好的處理實體識別任務。本發明能夠在小訓練集上較現有最新方法有顯著的提升,目前大部分方法都需要大量的訓練數據,這就意味著需要大量人工參與標注數據,本發明可以有效節省人工標注的成本。
技術領域
本發明涉及深度學習,自然語言處理任務中的預訓練語言模型和數據集成領域中的實體識別子任務。添加了對于實體識別任務本身獨特需求的關注,具體是提出一個關注相似片段和數字信息片段的聯合實體識別模型,通過一個感知相似片段的編碼器和一個感知數字片段的編碼器,可以有效處理預訓練語言模型在小訓練集上注意力分散的問題,從而使模型能夠更好的處理實體識別任務。
背景技術
實體識別(又稱實體解析)任務,旨在識別兩個記錄是否引用了相同的世界真實實體。傳統的實體識別方法主要關注結構化數據,這些數據大多是原子化也就是屬性值較短的。近年來,由于大數據時代對于匹配文本化的實體數據的需求不斷增加,例如匹配長文本的產品描述,對傳統的實體識別方法提出了挑戰。
在自然語言處理NLP領域的任務中,文本分類和相似性問題跟文本數據的問題息息相關。文本分類是針對不同場景(諸如情緒分析、主題檢測、問答類型檢測)預測給定文本的一個或多個類別標簽的任務。近來,有些研究利用了一種基于transformer的BERT結構,在模型頂層設計一個線性分類器,從而可以處理諸如文本分類、語句問答等下游任務。
得益于預訓練語言模型的研究發展和應用成熟,兩種基于預訓練語言模型的實體識別方法被提出,分別是DITTO方法和JointBERT方法,兩者都被證明能夠獲得更好的表現結果。DITTO可以通過在預處理期間注入獨特的標記來利用領域知識,JointBERT是一種基于預訓練語言模型的雙目標訓練方法,能夠在大量數據集下獲得更加優秀的表現。
然而,這些方法比較直接地使用預訓練的語言模型,并將實體識別和實體本身的特點割裂視為一個自然語言處理(Natural Language Processing,NLP)任務,不考慮實體識別任務的獨特需求。DITTO的領域內先驗知識并不總是可用且有效的,該缺點會導致整個模型的泛化能力較差;而JointBERT在訓練集有限的情況下,返而會對原有的預訓練語言模型造成負面影響,降低了模型的識別準確率。
因此,本發明擬針對深度學習模型中的注意力分散和小訓練集下無法關注實體數據本身特點的問題,提出能夠更加關注于相似片段和數字信息的實體識別方法。
發明內容
針對上述問題,本發明提出了一種不需要手動注入獨特標記和先驗知識的實體識別方法,增強了對文本數據中關鍵數字信息和相似片段的關注。
本發明解決其技術問題所采用的技術方案如下:
步驟1:數據預處理,根據基于文本相似度的處理方法預先生成所有的實體候選對,針對每個實體候選對(記錄u,記錄v),先將記錄u和記錄v的實體文本描述分別生成序列Ⅰ和生成序列Ⅱ,然后使用特殊標識符連接生成序列Ⅰ和生成序列Ⅱ,從而得到一個綜合生成序列Ⅲ。
步驟2:使用預訓練語言模型(Pre-trained Language Model)將預處理之后的生成序列Ⅰ、生成序列Ⅱ和綜合生成序列Ⅲ分別進行分詞、提取單詞嵌入向量特征,并根據不同的文本長度進行對齊,最后分別得到生成序列Ⅰ、生成序列Ⅱ和綜合生成序列Ⅲ對應的詞向量Eu、詞向量Ev和組合后的整個詞向量Et。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州電子科技大學,未經杭州電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210361634.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:信息處理方法、裝置、存儲介質及電子設備
- 下一篇:一種電子信息無線通信裝置





