[發(fā)明專利]建立分類模型的方法和裝置有效
| 申請?zhí)枺?/td> | 202210191386.3 | 申請日: | 2022-03-01 |
| 公開(公告)號: | CN114328936B | 公開(公告)日: | 2022-08-30 |
| 發(fā)明(設計)人: | 林昊 | 申請(專利權)人: | 支付寶(杭州)信息技術有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/242;G06F40/30 |
| 代理公司: | 濟南信達專利事務所有限公司 37100 | 代理人: | 李世喆 |
| 地址: | 310000 浙江省杭州市*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 建立 分類 模型 方法 裝置 | ||
1.建立分類模型的方法,包括:
獲取待分類數據樣本,并基于預設的詞典或語義表達模板獲取所述待分類數據樣本對應的分類標簽樣本;
取一部分待分類數據樣本及其對應的分類標簽樣本作為訓練樣本以構建訓練集,并取另一部分待分類數據樣本及其對應的分類標簽樣本作為訓練樣本構建回測集,所述訓練集和所述回測集均包含多個訓練樣本;
利用所述訓練集訓練分類模型;所述分類模型為序列類的分類模型,該序列類的分類模型通過分析事件相關文本中各詞語或字符的特征,來判別事件相關文本中的詞語或字符是否映射到事件類別,是否映射到具體的實體類別,是否映射到具體的事件關系,其中,詞語或字符的特征是詞法特征、位置特征、上下文特征、句法特征、段落特征;
利用由所述訓練集訓練得到的分類模型對所述回測集中的待分類數據樣本進行分類,依據分類結果與所述回測集中的該待分類數據樣本對應的分類標簽樣本的差異,確定該待分類數據樣本所在的訓練樣本對所述分類模型的效果增益,從所述回測集中選擇效果增益滿足預設要求的訓練樣本;
獲取對所選擇的訓練樣本中的待分類數據樣本進行人工標注之后得到的分類標簽樣本;
將所選擇的訓練樣本中的待分類數據樣本及其人工標注的分類標簽樣本構建新的訓練樣本加入所述訓練集,轉至利用所述訓練集訓練分類模型的步驟,直至達到預設的結束條件。
2.根據權利要求1所述的方法,其中,所述基于預設的詞典或語義表達模板獲取所述待分類數據樣本對應的分類標簽樣本包括:
將所述待分類數據樣本與預設的詞典或語義表達模板進行匹配;
依據匹配結果確定所述待分類數據樣本對應的分類標簽;
基于確定的分類標簽得到所述待分類數據樣本對應的分類標簽樣本。
3.根據權利要求1所述的方法,其中,所述依據分類結果與所述回測集中的該待分類數據樣本對應的分類標簽樣本的差異確定該待分類數據樣本所在的訓練樣本對所述分類模型的效果增益,從所述回測集中選擇效果增益滿足預設要求的訓練樣本,包括:
確定所述回測集中待分類數據樣本的分類標簽樣本在分類結果中的置信度;
從所述回測集中選擇置信度小于或等于預設第一閾值的待分類數據樣本所在的訓練樣本,或者,從所述回測集中選擇置信度最低的N個待分類數據樣本所在的訓練樣本,所述N為預設的正整數。
4.根據權利要求1所述的方法,其中,所述預設的結束條件包括以下至少一種:
所述分類模型的準確率達到預設準確率閾值;
循環(huán)執(zhí)行訓練分類模型的次數超過預設的循環(huán)次數閾值;
所述分類模型的分類效果收斂。
5.根據權利要求2所述的方法,其中,所述待分類數據樣本包括事件相關文本,所述分類模型包括事件抽取模型,所述分類標簽包括事件信息標簽;
所述事件抽取模型用以從待分類數據中抽取事件信息。
6.根據權利要求5所述的方法,該方法還包括:
確定所述回測集中待分類數據樣本的分類標簽樣本在分類結果中的置信度;
將置信度大于或等于預設第二閾值的分類標簽樣本加入數據庫,用以構建基于事件的知識圖譜。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于支付寶(杭州)信息技術有限公司,未經支付寶(杭州)信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210191386.3/1.html,轉載請聲明來源鉆瓜專利網。





