[發明專利]一種基于蒸餾關系的抽取加速方法及裝置在審
| 申請號: | 202110666649.7 | 申請日: | 2021-06-16 |
| 公開(公告)號: | CN113344205A | 公開(公告)日: | 2021-09-03 |
| 發明(設計)人: | 蘇華權;周昉昉;廖鵬;蔡雄;易仕敏;彭澤武;楊秋勇 | 申請(專利權)人: | 廣東電網有限責任公司 |
| 主分類號: | G06N5/02 | 分類號: | G06N5/02;G06F16/35;G06F16/36 |
| 代理公司: | 北京世譽鑫誠專利代理有限公司 11368 | 代理人: | 任欣生 |
| 地址: | 510000 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 蒸餾 關系 抽取 加速 方法 裝置 | ||
本發明公開了一種基于蒸餾關系抽取的加速方法及裝置,該方法包括:訓練基礎模型T1;將基礎模型T1設為教師模型,學生模型S1向教師模型T1輸入學習參數;采用損失函數,計算所述學生模型S1對軟標簽和硬標簽的損失,調整所述軟標簽和硬標簽的權重,其中,教師模型T1的預測輸出數據的標簽為軟標簽,教師模型T1的真實數據的標簽為硬標簽。通過該方法及裝置,將知識蒸餾引入關系抽取任務,提升了關系抽取訓練速度,減小了模型大小,優化了關系抽取系統的性能,做了模型壓縮和提速優化。
技術領域
本發明屬于關系抽取技術領域,特別涉及一種基于蒸餾關系的抽取加速方法及裝置。
背景技術
關系抽取是知識圖譜構建和信息抽取中的一個關鍵環節,主要目的是從非結構化或半結構化的文本中自動抽取出實體對之間的語義關系。關系抽取具有重要的理論意義和廣闊的應用前景,為多種應用提供重要的支持,包括大規模知識圖譜的自動構建,對信息檢索和問答系統提供支持等。隨著近年來知識圖譜、信息抽取需求的興起,實體關系抽取問題進一步得到廣泛關注和深入研究。
關系定義為兩個或多個實體之間的某種聯系。關系抽取的輸出通常是一個三元組(實體1,關系,實體2)。例如,句子“北京是中國的首都、政治中心和文化中心”中表述的關系可以表示為(中國,首都,北京),(中國,政治中心,北京)和(中國,文化中心,北京)。
知識蒸餾是一種模型壓縮常見方法,用于模型壓縮指的是在teacher-student框架中,將復雜、學習能力強的網絡學到的特征表示“知識”蒸餾出來,傳遞給參數量小、學習能力弱的網絡。蒸餾可以提供student學不到的軟標簽信息,這些里面包含了類別間信息,以及student小網絡學不到而teacher網絡可以學到的特征表示‘知識’,所以一般可以提高student網絡的精度。
現有缺點:
由于關系抽取任務較難,因此模型往往較為復雜,導致訓練耗時長,預測速度慢,占內存空間大。
發明內容
針對相關技術中的上述技術問題,本發明提出一種基于蒸餾關系的抽取加速方法及裝置,能夠克服現有技術的上述不足。
為實現上述技術目的,本發明的技術方案是這樣實現的:
一種基于蒸餾關系抽取的加速方法,該方法包括:
訓練基礎模型T1;
將基礎模型T1設為教師模型,學生模型S1向教師模型T1輸入學習參數;
采用損失函數,計算所述學生模型S1對軟標簽和硬標簽的損失,調整所述軟標簽和硬標簽的權重,其中,教師模型T1的預測輸出數據的標簽為軟標簽,教師模型T1的真實數據的標簽為硬標簽。
進一步的,所述生模型S1向教師模型T1輸入學習參數,包括:
使用學生模型S1學習教師模型T1的評定參數。
進一步的,所述調整所述軟標簽和硬標簽的權重,包括:
在模型蒸餾過程中,調整所述軟標簽和硬標簽的權重。
進一步的,所述調整所述軟標簽和硬標簽的權重,包括:
設軟標簽權重為lambda,硬標簽權重為1-lambda,學習過程中減小lambda,其中,lambda為正則化參數。
進一步的,所述損失函數為加權交叉熵損失函數。
另一方面,提出了一種基于蒸餾關系抽取的加速裝置,該裝置包括:
訓練單元,用于訓練基礎模型T1;
輸入單元,用于將基礎模型T1設為教師模型,學生模型S1向教師模型T1輸入學習參數;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣東電網有限責任公司,未經廣東電網有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110666649.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種鏈鋸切割機
- 下一篇:一種Fascaplysin類化合物的應用





