[發明專利]少樣本關系抽取模型的訓練方法、裝置及終端設備在審
| 申請號: | 202211159237.5 | 申請日: | 2022-09-22 |
| 公開(公告)號: | CN115510853A | 公開(公告)日: | 2022-12-23 |
| 發明(設計)人: | 魏忠誠;郭文杰;張春華;生龍;王超;趙繼軍 | 申請(專利權)人: | 河北工程大學 |
| 主分類號: | G06F40/279 | 分類號: | G06F40/279;G06K9/62 |
| 代理公司: | 河北國維致遠知識產權代理有限公司 13137 | 代理人: | 張新利 |
| 地址: | 056038 河北省*** | 國省代碼: | 河北;13 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 樣本 關系 抽取 模型 訓練 方法 裝置 終端設備 | ||
本申請適用于自然語言處理技術領域,提供了一種少樣本關系抽取模型的訓練方法、裝置及終端設備。該方法包括:構建第一支持集與第一查詢集對預設的少樣本關系抽取模型進行正向訓練,得到正向關系原型和第一匹配得分,并根據正向訓練的結果與第一查詢集構建第二支持集與第二查詢集,以對預設的少樣本關系抽取模型進行逆向訓練,得到逆向關系原型和第二匹配得分,根據第一匹配得分和第二匹配得分確定交叉熵損失值,根據正向關系原型和逆向關系原型對預設的少樣本關系抽取模型進行調參,并根據交叉熵損失值得到更新后的少樣本關系抽取模型。本申請能夠提高少樣本關系抽取模型的分類準確度,進而對句子的實體關系進行有效抽取。
技術領域
本申請涉及自然語言處理技術領域,具體涉及一種少樣本關系抽取模型的訓練方法、裝置及終端設備。
背景技術
城市公共安全產生的數據量與日俱增,城市公共安全數據中有大量人與人、人與物之間交互的數據,從數據中獲取實體之間的關系(即實體關系),有助于數據的充分利用,發揮其潛在價值。
獲取實體之間的關系的主要技術是實體關系抽取,現有的基于遠程監督的關系抽取模型的性能通常依賴于大量高質量的標注的訓練數據,而現實中,訓練數據會存在長尾分布問題,即某些類別的實體關系只對應少量的標注的訓練數據(少樣本訓練數據),這就導致現有的關系抽取模型無法對上述只對應少樣本訓練數據的實體關系進行準確分類。
針對上述問題,少樣本學習被引入到實體關系抽取中,而現有的少樣本關系抽取模型的訓練往往只考慮關系原型的正向訓練,導致少樣本關系抽取模型也存在分類準確度低的問題。
發明內容
有鑒于此,本申請實施例提供了一種少樣本關系抽取模型的訓練方法、裝置及終端設備,以解決現有的少樣本關系抽取模型分類準確度低、無法有效地進行實體關系抽取的技術問題。
第一方面,本申請實施例提供了一種少樣本關系抽取模型的訓練方法,包括:根據獲取的句子文本集確定正向訓練的第一支持集和第一查詢集,句子文本集中的實例標注有實體對和關系標簽,第一支持集中根據關系標簽劃分有多個類別的第一實例集;利用第一支持集與第一查詢集對預設的少樣本關系抽取模型進行正向訓練,得到第一查詢集中每個第二實例與第一支持集中每個類別的第一實例集的正向關系原型,以及根據正向關系原型確定每個第二實例與每個類別的第一實例集之間的第一匹配得分,和每個第二實例的偽關系標簽;
根據第一查詢集與第二實例的偽關系標簽構建逆向訓練的第二支持集,根據句子文本集和第二支持集構建逆向訓練的第二查詢集,第二支持集中根據關系標簽劃分有多個類別的第二實例集,第二實例集的類別與第一實例集的類別相對應;利用第二支持集與第二查詢集對預設的少樣本關系抽取模型進行逆向訓練,得到第二查詢集中每個第四實例與第二支持集中每個類別的第二實例集的逆向關系原型,以及根據逆向關系原型確定每個第四實例與每個類別的第二實例集之間的第二匹配得分;
根據第一匹配得分和第二匹配得分確定交叉熵損失值,根據正向關系原型和逆向關系原型對預設的少樣本關系抽取模型進行調參,并根據交叉熵損失值得到更新后的少樣本關系抽取模型。
在第一方面的一種可能的實施方式中,根據獲取的句子文本集確定正向訓練的第一支持集和第一查詢集,包括:根據獲取的句子文本集和預設任務場景確定正向訓練的第一支持集和第一查詢集;預設任務場景確定了第一支持集中第一實例集的類別和第一實例集中第一實例的數量;第一查詢集中第二實例的類別與第一實例集的類別相對應。
在第一方面的一種可能的實施方式中,根據第一查詢集與第二實例的偽關系標簽構建逆向訓練的第二支持集,根據句子文本集和第二支持集構建逆向訓練的第二查詢集,包括:根據預設任務場景、第一查詢集與第二實例的偽關系標簽構建逆向訓練的第二支持集;第二支持集中包括第一查詢集中的所有第二實例;預設任務場景確定了第二支持集中第二實例集的類別和第二實例集中第三實例的數量;根據句子文本集和第二支持集構建逆向訓練的第二查詢集;第二查詢集中第四實例的類別與第二實例集的類別相對應。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于河北工程大學,未經河北工程大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211159237.5/2.html,轉載請聲明來源鉆瓜專利網。





