[發明專利]基于知識蒸餾和多任務學習的篇章關系識別方法與裝置有效
| 申請號: | 202110078740.7 | 申請日: | 2021-01-21 |
| 公開(公告)號: | CN112395876B | 公開(公告)日: | 2021-04-13 |
| 發明(設計)人: | 鄔昌興;謝子若 | 申請(專利權)人: | 華東交通大學 |
| 主分類號: | G06F40/284 | 分類號: | G06F40/284;G06F40/30;G06N20/20;G06N3/04 |
| 代理公司: | 北京中濟緯天專利代理有限公司 11429 | 代理人: | 黃攀 |
| 地址: | 330000 江西省南*** | 國省代碼: | 江西;36 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 知識 蒸餾 任務 學習 篇章 關系 識別 方法 裝置 | ||
本發明提出一種基于知識蒸餾和多任務學習的篇章關系識別方法與裝置,在本發明中,一方面,基于參數共享的方式在連接詞分類輔助任務和隱式篇章關系識別主任務之間共享知識;另一方面,將連接詞增強的教師模型中的知識基于知識蒸餾技術從特征層和分類層遷移到相應的隱式篇章關系識別模型中;以充分利用語料標注時插入的連接詞信息提高學生模型的識別性能。
技術領域
本發明涉及計算機智能分析處理技術領域,特別涉及一種基于知識蒸餾和多任務學習的篇章關系識別方法與裝置。
背景技術
篇章一般是指由一系列結構銜接、語義連貫的語言單位(句子或子句),按照一定的語義關系或者層次結構組成的整體語言單位。通常把句子或子句之間的語義關系稱作篇章關系,例如,因果關系、轉折關系等。篇章關系識別指的是自動判斷兩個論元(句子或子句)之間的語義關系,是篇章結構分析的核心子任務之一,也是其性能瓶頸所在。因此,篇章關系識別性能的提高,不但能夠促進篇章結構分析的發展,也有利于眾多下游的自然語言處理任務。例如,機器翻譯、情感分析、問答系統以及文本摘要等。
其中,篇章連接詞(例如,因為、但是等)是篇章關系識別中最重要的特征之一。當兩個論元有篇章連接詞相連時,顯式篇章關系識別僅使用連接詞作為特征就能達到90%以上的分類準確率。反之,當兩個論元之間省略了篇章連接詞時,隱式篇章關系識別需要根據兩個論元的語義推導它們之間的關系,對應的準確率目前僅60%左右。例如,如圖1所示,隱式篇章關系實例的兩個論元之間省略了連接詞“所以”,則需要基于文本“積水”和“沒去打籃球”推導它們之間語義上的“因果關系”,而這是非常困難的。實際上,即便是語料標注人員也常利用連接詞信息來輔助隱式篇章關系的標注。例如,目前規模最大的賓州篇章樹庫(The Penn Discourse TreeBank, PDTB)在進行標注時,也要求標注人員首先在隱式篇章關系實例的兩個論元之間插入一個合適的連接詞,然后綜合論元和插入的連接詞兩個方面的信息來判斷該實例的篇章關系。也就是說,篇章語料標注人員常使用(插入的)連接詞信息來輔助隱式篇章關系的標注。
從以上分析可知:一方面,基于連接詞的顯式篇章關系識別與基于論元語義的隱式篇章關系識別之間存在巨大的性能差距(90%與60%);另一方面,語料的標注過程也說明了連接詞信息對隱式篇章關系識別是有幫助的。因此,一些研究人員嘗試在隱式篇章關系識別模型中利用連接詞信息,以提高識別的性能。目前,已有研究人員使用基于對抗學習的方法,利用語料標注時插入的連接詞信息幫助隱式篇章關系識別。
然而,現有的基于對抗學習的方法對連接詞信息的利用并不充分,僅停留在特征抽取層上遷移知識,且識別性能不是很理想。
發明內容
鑒于上述狀況,有必要解決現有的基于對抗學習的方法,僅停留在特征抽取層遷移知識,且識別性能不是較為理想的問題。
本發明實施例提供了一種基于知識蒸餾和多任務學習的篇章關系識別方法,其中,所述方法包括如下步驟:
以標注了連接詞與隱式篇章關系類別的隱式篇章關系實例作為訓練實例;
基于雙向注意力機制分類模型構造連接詞加強的教師模型,以所述連接詞作為額外輸入,對所述連接詞加強的教師模型對應的代價函數進行迭代最小化處理直至收斂,以得到訓練好的教師模型;
基于所述雙向注意力機制分類模型構造多任務學習學生模型,引入連接詞分類作為輔助任務,以確定基于多任務學習的代價函數,利用所述訓練好的教師模型計算訓練實例的特征和預測結果,以確定基于知識蒸餾的代價函數,繼而確定學生模型總代價函數;
迭代最小化所述學生模型總代價函數直至收斂,以輸出訓練好的學生模型,進而用于識別測試實例的隱式篇章關系。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華東交通大學,未經華東交通大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110078740.7/2.html,轉載請聲明來源鉆瓜專利網。





