[發明專利]網絡模型訓練方法、樣本關系類別獲取方法、電子設備在審
| 申請號: | 202110008841.7 | 申請日: | 2021-01-05 |
| 公開(公告)號: | CN114722887A | 公開(公告)日: | 2022-07-08 |
| 發明(設計)人: | 張奇;孫晉權;王宇 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 北京博浩百睿知識產權代理有限責任公司 11134 | 代理人: | 趙昀彬 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 網絡 模型 訓練 方法 樣本 關系 類別 獲取 電子設備 | ||
1.一種網絡模型訓練方法,其特征在于,包括:
獲取監督數據集,其中,所述監督數據集包括:多個待訓練樣本;
按照所述多個待訓練樣本的樣本關系類別,對所述監督數據集進行聚類處理,得到多個簇;
利用所述多個簇對初始網絡模型進行迭代訓練,得到目標網絡模型,其中,所述初始網絡模型和所述目標網絡模型用于抽取監督關系。
2.根據權利要求1所述的網絡模型訓練方法,其特征在于,獲取所述監督數據集包括:
獲取非結構化文本;
將所述非結構化文本與關聯知識庫對齊,得到所述監督數據集。
3.根據權利要求2所述的網絡模型訓練方法,其特征在于,獲取所述非結構化文本包括:
確定需待爬取的根網頁列表;
利用爬蟲工具和深度優先搜索算法從所述根網頁列表的每個網頁中獲取對應的原始文本;
對所述原始文本進行分句處理,得到所述非結構化文本。
4.根據權利要求2所述的網絡模型訓練方法,其特征在于,將所述非結構化文本與所述關聯知識庫對齊,得到所述監督數據集包括:
判斷所述非結構化文本的句子中是否包含所述關聯知識庫的三元組內至少一個實體;
當所述句子中包含所述三元組內兩個實體時,將所述句子標注為所述樣本關系類別的正樣本;當所述句子中包含所述三元組的一個實體并且所述句子中還包含一個與所述三元組內另一個實體類別相同的其它實體時,將所述句子標注為所述樣本關系類別的負樣本;
將標注的正樣本和標注的負樣本確定為所述監督數據集。
5.根據權利要求1所述的網絡模型訓練方法,其特征在于,按照所述多個待訓練樣本的樣本關系類別,對所述監督數據集進行聚類處理,得到所述多個簇包括:
利用密度聚類算法對所述監督數據集中屬于相同樣本關系類別的待訓練樣本進行聚類處理,得到所述多個簇。
6.根據權利要求1所述的網絡模型訓練方法,其特征在于,利用所述多個簇對所述初始網絡模型進行迭代訓練,得到所述目標網絡模型包括:
獲取第一影響因子和第二影響因子,其中,所述第一影響因子用于量化每個簇大小的影響,所述第二影響因子用于評估每個簇中包含正確描述對應樣本關系類別的樣本可能性;
利用第一參數、第二參數、第三參數、所述第一影響因子以及所述第二影響因子計算得到可信度分數;
基于每個簇對應的后驗概率獲取所述可信度分數的監督信號;
將所述可信度分數和所述監督信號設置為可信度后驗約束的損失函數的輸入參數,輸出第一計算結果;
通過所述第一計算結果對所述初始網絡模型進行迭代訓練,得到所述目標網絡模型。
7.根據權利要求6所述的網絡模型訓練方法,其特征在于,獲取所述第一影響因子包括:
基于所述多個簇中每個簇所包含的待訓練樣本的樣本數量獲取所述第一影響因子。
8.根據權利要求6所述的網絡模型訓練方法,其特征在于,獲取所述第二影響因子包括:
基于每個樣本關系類別對應的標注樣本總數、每個標注樣本的特征表示以及每個樣本關系類別對應簇的向量表示獲取所述第二影響因子。
9.根據權利要求1所述的網絡模型訓練方法,其特征在于,所述方法還包括:
基于所述多個待訓練樣本中每個待訓練樣本構造樣本特征向量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110008841.7/1.html,轉載請聲明來源鉆瓜專利網。





