[發明專利]關系抽取聯合模型訓練方法、關系抽取方法、設備及介質在審
| 申請號: | 202210503511.X | 申請日: | 2022-05-09 |
| 公開(公告)號: | CN114781398A | 公開(公告)日: | 2022-07-22 |
| 發明(設計)人: | 連明杰;劉嘉偉;鞠建勛;李健 | 申請(專利權)人: | 攜程旅游信息技術(上海)有限公司 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F16/35 |
| 代理公司: | 上海弼興律師事務所 31283 | 代理人: | 羅朗;林嵩 |
| 地址: | 201203 上海市浦東新*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 關系 抽取 聯合 模型 訓練 方法 設備 介質 | ||
1.一種關系抽取聯合模型訓練方法,其特征在于,具體包括以下步驟:
獲取公告文本信息,將所述文本信息預處理以得到文本序列,所述文本序列包括有效文本序列與無效文本序列,所述有效文本序列包括有效標記與指定關系標記,所述無效文本序列包括無效標記;
利用預訓練模型提取所述文本序列的特征向量,所述特征向量包括訓練向量;
利用所述訓練向量分別對第一模型、第二模型進行訓練以得到文本二分類模型、關系抽取模型,所述文本二分類模型以文本信息為輸入,以分類結果為輸出,所述分類結果包括有效結果與無效結果;所述關系抽取模型以文本信息為輸入,得到主語語義結果,以所述主語語義結果為條件,對輸入的文本信息進行條件層歸一化,得到第一關系結果及第一客體結果,所述關系抽取模型以所述主語語義結果、所述第一關系結果、所述第一客體結果為輸出;
聯合所述文本二分類模型與所述關系抽取模型以得到聯合模型,所述聯合模型以文本信息為輸入,以分類結果及主語語義結果為中間輸出,將所述分類結果與所述主語語義結果相乘以得到主語結果,以所述主語結果為條件,對輸入的文本信息進行條件層歸一化,得到第二關系結果及第二客體結果,所述聯合模型以所述主語結果、所述第二關系結果、所述第二客體結果為最終輸出。
2.如權利要求1所述的一種關系抽取聯合模型訓練方法,其特征在于,所述將所述分類結果與所述主語語義結果相乘以得到所述主語結果的具體步驟包括:
將每個所述主語語義結果與對應的所述分類結果相乘以得到所述主語結果,當所述主語結果大于主語預設閾值時,輸入的文本信息與有效文本信息相對應,所述有效文本信息包含目標關系,且所述有效文本信息中對應位置的文本為文本信息的主語。
3.如權利要求1所述的一種關系抽取聯合模型訓練方法,其特征在于,所述將所述文本信息預處理的具體步驟包括:
將英文字母進行大小寫轉化;
將中文的字體進行繁簡體轉化。
4.如權利要求1所述的一種關系抽取聯合模型訓練方法,其特征在于,所述將所述文本信息預處理的具體步驟包括:
將所述文本信息按照預設長度進行截斷以得到所述文本序列,所述預設長度不超過所述預訓練模型適配的最大長度。
5.如權利要求4所述的一種關系抽取聯合模型訓練方法,其特征在于,所述將所述文本信息按照預設長度進行截斷以得到所述文本序列的具體步驟包括:
所述關系抽取模型預期抽取的關系為目標關系,篩取所述文本信息中與所述目標關系相關聯的關鍵詞,以所述關鍵詞的位置為中間位置對所述文本信息進行截斷以得到所述文本序列;
和/或,對于截斷后不滿足所述預設長度的文本序列,提取前一文本序列的相鄰字符至符合所述預設長度。
6.如權利要求1所述的一種關系抽取聯合模型訓練方法,其特征在于,所述第一模型的輸出設置有第一評估指標,所述第二模型的輸出設置有第二評估指標,所述特征向量包括測試向量,所述測試向量與所述訓練向量皆由所述特征向量隨機分配得到,所述利用所述訓練向量分別對第一模型、第二模型進行訓練以得到文本二分類模型、關系抽取模型的具體步驟包括:
利用所述測試向量對經過訓練的所述第一模型、所述第二模型進行測試,若所述第一模型的測試結果沒有達到所述第一評估指標,則調整所述第一模型的參數,進行再訓練;
若所述第二模型的測試結果沒有達到所述第二評估指標,則調整所述第二模型的參數,進行再訓練。
7.如權利要求2所述的一種關系抽取聯合模型訓練方法,其特征在于,所述主語預設閾值的設定步驟包括:
設定一個主語初始閾值,依照所述文本信息記載對應的聯合模型輸出的主語結果中應當大于所述主語初始閾值或小于所述主語初始閾值的位置以得到預期位置序列,將所述預期位置序列與對應的主語結果進行比較以得到誤差位置與誤差數量,記載所述誤差位置對應的主語結果為誤差結果;
將所述主語初始閾值向所述誤差結果的平均數方向進行逐級調整,并重復測試主語結果所對應的誤差數量,當所述誤差數量最小時,以對應的主語初始閾值為所述主語預設閾值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于攜程旅游信息技術(上海)有限公司,未經攜程旅游信息技術(上海)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210503511.X/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:虛擬現實視差校正
- 下一篇:一種耐火材料噴涂裝置及噴涂方法





