[發明專利]一種實體間關聯關系的確定方法、裝置、終端設備及介質在審
| 申請號: | 202010899795.X | 申請日: | 2020-08-31 |
| 公開(公告)號: | CN112115720A | 公開(公告)日: | 2020-12-22 |
| 發明(設計)人: | 同文地 | 申請(專利權)人: | 北京字節跳動網絡技術有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F16/28;G06F16/35 |
| 代理公司: | 北京遠智匯知識產權代理有限公司 11659 | 代理人: | 范坤坤 |
| 地址: | 100041 北京市石景山區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 實體 關聯 關系 確定 方法 裝置 終端設備 介質 | ||
1.一種實體間關聯關系的確定方法,其特征在于,包括:
確定文本信息中的主體實體和屬性實體;
將確定出的每個主體實體和確定出的每個屬性實體輸入至關聯度模型,確定每個所述主體實體與各所述屬性實體間的關聯度信息;
根據所述關聯度信息,確定實體間的關聯關系。
2.根據權利要求1所述的方法,其特征在于,所述關聯度模型的訓練操作包括:
基于訓練樣本集對預先建立的邏輯回歸模型進行訓練,得到關聯度模型;
其中,所述訓練樣本集包括正樣本和負樣本,所述正樣本包括訓練用信息中相關聯的訓練用主體實體和訓練用屬性實體,所述負樣本包括所述訓練用信息中不關聯的訓練用主體實體和訓練用屬性實體。
3.根據權利要求2所述的方法,其特征在于,所述回歸模型的特征信息包括如下一個或多個:富文本信息、實體飽和度、實體行距、實體位置信息和實體類型,富文本信息表征實體是否加粗,實體飽和度表征實體在所處句子中的占比,實體行距表征主體實體與屬性實體間行距的絕對值,實體位置信息表征實體在所處文本行的位置信息,實體類型表征文本的類型。
4.根據權利要求1所述的方法,其特征在于,所述根據所述關聯度信息,確定實體間的關聯關系,包括:
從各所述屬性實體中選取一個屬性實體作為當前屬性實體;
將目標實體確定為與所述當前屬性實體相關聯的主體實體,以實現所述當前屬性實體的關聯關系的構建;
繼續選取當前屬性實體直至各所述屬性實體選取完成;
若所述當前屬性實體的取值最大的關聯度信息所對應的主體實體的個數為一個,將所對應的主體實體確定為所述目標實體;否則將取值最大的關聯度信息所對應的每個主體實體分別確定為所述目標實體,以形成所述文本信息對應的多組關聯關系,每組關聯關系中包括各所述屬性實體與對應主體實體的關聯關系,一個屬性實體對應一個主體實體,在確定出多組關聯關系時,將取值最小的組異構性信息所對應的關聯關系確定為所述文本信息的實體間的關聯關系。
5.根據權利要求4所述的方法,其特征在于,所述組異構性信息的確定操作包括:
針對每組關聯關系,確定每個屬性實體與所關聯的主體實體的行距信息;
針對每個屬性實體,根據所對應行距信息中頻次最高的行距信息和所對應行距信息中除頻次最高的行距信息外的行距信息,確定該屬性信息的屬性異構性信息;
將各屬性異構性信息的和確定為對應組的組異構性信息。
6.根據權利要求1所述的方法,其特征在于,所述確定文本信息中的主體實體和屬性實體,包括:
基于文本屬性信息過濾識別出的實體,所述實體為對經過清洗處理后的文本信息識別確定;
確定所述實體中的主體實體和屬性實體。
7.根據權利要求6所述的方法,其特征在于,所述文本屬性信息包括如下一個或多個:富文本信息、實體飽和度和實體類型。
8.一種實體間關聯關系的確定裝置,其特征在于,包括:
第一確定模塊,用于確定文本信息中的主體實體和屬性實體;
第二確定模塊,用于將確定出的每個主體實體和確定出的每個屬性實體輸入至關聯度模型,確定每個所述主體實體與各所述屬性實體間的關聯度信息;
第三確定模塊,用于根據所述關聯度信息,確定實體間的關聯關系。
9.一種終端設備,其特征在于,包括:
一個或多個處理裝置;
存儲裝置,用于存儲一個或多個程序;
當所述一個或多個程序被所述一個或多個處理裝置執行,使得所述一個或多個處理裝置實現如權利要求1-7中任一所述的方法。
10.一種計算機可讀介質,其上存儲有計算機程序,其特征在于,該程序被處理裝置執行時實現如權利要求1-7中任一所述的方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京字節跳動網絡技術有限公司,未經北京字節跳動網絡技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010899795.X/1.html,轉載請聲明來源鉆瓜專利網。





