[發明專利]基于多選匹配網絡的統一低樣本關系抽取方法及裝置在審
| 申請號: | 202210083731.1 | 申請日: | 2022-01-21 |
| 公開(公告)號: | CN114528400A | 公開(公告)日: | 2022-05-24 |
| 發明(設計)人: | 劉方超;林鴻宇;韓先培;孫樂 | 申請(專利權)人: | 中國科學院軟件研究所 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/30;G06K9/62;G06N3/08 |
| 代理公司: | 北京君尚知識產權代理有限公司 11200 | 代理人: | 邱曉鋒 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 匹配 網絡 統一 樣本 關系 抽取 方法 裝置 | ||
本發明公開一種基于多選匹配網絡的統一低樣本關系抽取方法及裝置。該方法包括:基于預訓練語言模型和多選標記的關系描述與關系實例共同編碼和匹配機制;基于大規模純文本的開放信息抽取得到的三元組以及通過生成式預訓練語言模型生成的復述文本,以及基于此進行的三元組?復述預訓練方式;基于新任務下小樣本的在線元學習訓練方式。本發明的基于多選匹配網絡的機制能夠統一建模低樣本關系抽取任務中的各類場景,并提供高效快速的網絡架構,使得模型更加符合實際應用中對模型性能和速度的多重要求。
技術領域
本發明涉及一種低樣本關系抽取方法,特別是涉及一種基于多選匹配網絡及其預訓練和在線訓練方式的低樣本關系抽取方法及裝置,屬于自然語言處理技術領域。
背景技術
關系抽取是信息抽取以及自然語言理解中的一個重要任務。該任務旨在給定上下文的情況下,識別出其中一對實體所表達的關系類別。例如。給定上下文“A為B公司創始人”,以及實體對“A”和“B公司”,一個關系抽取系統應當能夠正確識別出該實體對表達了“是…的創始人”的關系。
近年來,隨著深度學習方法的發展,關系抽取系統的準確率有了大幅提升。但這類方法需要大量高質量標注數據進行模型的訓練,從而導致標注成本過大。同時,此類方法得到的模型泛化性較差,無法遷移到新的關系類別和領域。
為此,低樣本關系抽取任務近年來得到廣泛關注。該任務旨在將已有關系抽取模型中的知識,在僅有少量標注樣本,甚至沒有標注樣本的情況下,遷移到目標關系抽取任務中。常見的低樣本關系抽取任務包括零樣本關系抽取以及少樣本關系抽取。在零樣本關系抽取任務中,模型需要在僅有額外知識(通常為關系類別的描述或名稱),而無任何標注實例的情況下,將已有關系抽取模型泛化到目標任務中。而少樣本關系抽取模型則依賴于新關系類別下僅有的少量標注實例(通常每個新類別為1或5個),進行目標關系抽取任務的泛化。
傳統的統一低樣本關系抽取可以分為兩大類,第一類方式將關系抽取任務建模為文本蘊含任務,通過將包含關系類別信息的文本或者已標注實例與待分類實例進行拼接和共同編碼,判斷兩者是否匹配以進行關系抽取。第二類方式將關系抽取建模為機器閱讀理解任務,利用模板生成包含關系類別信息的問句,并對待分類實例進行查詢,若生成或抽取得到的答案征確,則認為表達了相應的關系類別。
然而,由于上述方法在編碼或者解碼端存在計算復雜度高的瓶頸,使得關系抽取計算代價過大,程序運行速度難以滿足實際需求。
發明內容
為克服現有統一低樣本關系抽取方法計算代價大的問題,本發明提出了一種基于多選匹配網絡的統一關系抽取方法及裝置,將關系抽取建模為計算十分方便的多選匹配任務,并利用任務特定的預訓練方式,對多選匹配網絡進行特定的優化和訓練,從而避免了模型計算代價大的問題。
為達上述目的,本發明采用具體技術方案是:
一種基于多選匹配網絡的統一低樣本關系抽取方法,其步驟包括:
將當前任務的所有關系描述拼接成一條多選語句;
將待分類實例與上述多選語句合并,共同輸入多選匹配網絡的編碼器中;
將編碼器編碼后的待分類實例的表示與多選語句中每個關系的表示進行匹配,將相似度最大的關系作為預測結果,得到關系抽取結果。
進一步地,通過以下步驟得到訓練好的多選匹配網絡:
a)在大規模開放域文本中,通過OpenIE工具,從中抽取得到(主語,謂語,賓語)三元組,三元組的每個部分均為原文本中的文本片段。
b)將抽取得到的大量三元組,通過預訓練好的生成式語言模型,生成包含三元組語義的對應的復述文本。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院軟件研究所,未經中國科學院軟件研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210083731.1/2.html,轉載請聲明來源鉆瓜專利網。





