[發明專利]事件指稱匹配方法、模型訓練方法、裝置和電子設備有效
| 申請號: | 202110699455.7 | 申請日: | 2021-06-23 |
| 公開(公告)號: | CN113591908B | 公開(公告)日: | 2023-09-29 |
| 發明(設計)人: | 李心雨;韓翠云;施茜;黃佳艷;裴明 | 申請(專利權)人: | 北京百度網訊科技有限公司 |
| 主分類號: | G06F18/22 | 分類號: | G06F18/22;G06F18/2411;G06F18/25;G06F18/214 |
| 代理公司: | 北京清亦華知識產權代理事務所(普通合伙) 11201 | 代理人: | 王萌 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 事件 指稱 匹配 方法 模型 訓練 裝置 電子設備 | ||
1.一種事件指稱匹配方法,包括:
獲取待處理的第一事件指稱和第二事件指稱,并獲取所述第一事件指稱的第一輔助文本和所述第二事件指稱的第二輔助文本,其中,所述第一事件指稱和所述第二事件指稱是分別從多媒體信息來源中挖掘到的簡短的事件描述文本,所述第一輔助文本是利用結構化信息為第一事件指稱確定有效性輔助文本,所述第二輔助文本是利用結構化信息為第二事件指稱確定有效性輔助文本;
根據所述第一事件指稱、所述第一輔助文本、所述第二事件指稱和所述第二輔助文本,生成融合編碼特征向量;所述融合編碼特征向量為融合了所述第一事件指稱、所述第一輔助文本、所述第二事件指稱和所述第二輔助文本的文本信息、結構化信息的編碼特征向量;
根據所述融合編碼特征向量,生成文本對編碼特征向量;所述文本對編碼特征向量為由所述第一事件指稱和第二事件指稱組成的文本對的編碼向量;
根據所述文本對編碼特征向量確定所述第一事件指稱和所述第二事件指稱是否為相同事件;
所述根據所述第一事件指稱、所述第一輔助文本、所述第二事件指稱和所述第二輔助文本,生成融合編碼特征向量,包括:
獲取預先經過訓練的事件指稱匹配模型;所述事件指稱匹配模型包括結構化信息輸入層;
將所述第一事件指稱、所述第一輔助文本、所述第二事件指稱和所述第二輔助文本進行拼接,將拼接后的文本作為所述事件指稱匹配模型的輸入;
通過所述結構化信息輸入層對輸入文本分別進行文本編碼、分句編碼、觸發詞編碼和實體編碼,并將文本編碼結果和分句編碼結果、觸發詞編碼結果和實體編碼結果進行融合處理,獲得所述融合編碼特征向量。
2.根據權利要求1所述的方法,其中,所述獲取所述第一事件指稱的第一輔助文本,包括:
從所述第一事件指稱所屬的第一多媒體文本中選取第一候選事件句;
獲取所述第一多媒體文本的標題信息;
對所述第一事件指稱、所述第一候選事件句和所述第一多媒體文本的標題信息分別進行實體識別;
根據實體識別結果,從所述第一候選事件句和所述第一多媒體文本的標題信息中選擇其中一個作為所述第一事件指稱的第一輔助文本。
3.根據權利要求1所述的方法,其中,獲取所述第二事件指稱的第二輔助文本,包括:
從所述第二事件指稱所屬的第二多媒體文本中選取第二候選事件句;
獲取所述第二多媒體文本的標題信息;
對所述第二事件指稱、所述第二候選事件句和所述第二多媒體文本的標題信息分別進行實體識別;
根據實體識別結果,從所述第二候選事件句和所述第二多媒體文本的標題信息中選擇其中一個作為所述第二事件指稱的第二輔助文本。
4.根據權利要求1所述的方法,其中,所述事件指稱匹配模型還包括編碼層;所述根據所述融合編碼特征向量,生成文本對編碼特征向量,包括:
將所述融合編碼特征向量作為所述編碼層的輸入,通過所述編碼層采用所述融合編碼特征向量進行事件信息交互,并對事件信息進行編碼,獲得所述文本對編碼特征向量。
5.根據權利要求1所述的方法,其中,所述事件指稱匹配模型還包括輸出層;所述根據所述文本對編碼特征向量確定所述第一事件指稱和所述第二事件指稱是否為相同事件,包括:
將所述文本對編碼特征向量作為所述輸出層的輸入,通過所述輸出層對所述文本對編碼特征向量進行預測;
獲取所述輸出層輸出的預測結果,并根據所述預測結果確定所述第一事件指稱和所述第二事件指稱是否為相同事件。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網訊科技有限公司,未經北京百度網訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110699455.7/1.html,轉載請聲明來源鉆瓜專利網。





