[發明專利]一種數據處理方法及裝置在審
| 申請號: | 202010530028.1 | 申請日: | 2020-06-11 |
| 公開(公告)號: | CN111611390A | 公開(公告)日: | 2020-09-01 |
| 發明(設計)人: | 朱標;章鵬;崔陽 | 申請(專利權)人: | 支付寶(杭州)信息技術有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/247;G06F40/30;G06N20/00 |
| 代理公司: | 北京博思佳知識產權代理有限公司 11415 | 代理人: | 周嗣勇 |
| 地址: | 310000 浙江省杭州市*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 數據處理 方法 裝置 | ||
一種數據處理方法及裝置,所述方法包括:迭代執行以下過程,直到達到迭代終止條件:對特征詞集合中的特征詞進行近似詞擴展,并將得到的擴展特征詞添加至所述特征詞集合;基于添加了擴展特征詞后的所述特征詞集合中的特征詞構建若干訓練樣本;其中,所述若干訓練樣本中的部分訓練樣本被標記了樣本標簽;基于主動學習的方式,對所述若干訓練樣本,進行迭代訓練,得到用于對目標對象進行分類的分類模型;其中,迭代終止條件包括:本輪迭代訓練得到的分類模型,相對于上一輪迭代訓練得到的分類模型的性能增益小于預設增益閾值。
技術領域
本說明書涉及計算機應用領域,尤其涉及一種數據處理方法及裝置。
背景技術
隨著信息化的發展,互聯網中包含著越來越多的企業的業務信息,監管機構可以獲取并分析這些信息,進而判斷對應的企業是否屬于違法違規企業。
通常,人們可以通過機器學習的方式,構建并訓練分類模型,以根據企業業務信息確定企業是否屬于違法違規企業;但是,傳統的機器學習方法為了保證生成模型的準確度,在模型訓練階段需要使用大量的人工標注的樣本,因此會消耗大量的人力資源。
發明內容
有鑒于此,本說明書公開了一種數據處理方法和裝置。
根據本說明書實施例的第一方面,公開了一種數據處理方法,包括:
迭代執行以下過程,直到達到迭代終止條件;其中,所述迭代終止條件包括:本輪迭代訓練得到的分類模型,相對于上一輪迭代訓練得到的分類模型的性能增益小于預設增益閾值:
對特征詞集合中的特征詞進行近似詞擴展,并將得到的擴展特征詞添加至所述特征詞集合;
基于添加了擴展特征詞后的所述特征詞集合中的特征詞構建若干訓練樣本;其中,所述若干訓練樣本中的部分訓練樣本被標記了樣本標簽;
基于主動學習的方式,對所述若干訓練樣本,進行迭代訓練,得到用于對目標對象進行分類的分類模型。
根據本說明書實施例的第二方面,公開了一種數據處理裝置,包括:
迭代控制模塊,迭代執行以下過程,直到達到迭代終止條件;其中,所述迭代終止條件包括:本輪迭代訓練得到的分類模型,相對于上一輪迭代訓練得到的分類模型的性能增益小于預設增益閾值:
近似詞擴展模塊,對特征詞集合中的特征詞進行近似詞擴展,并將得到的擴展特征詞添加至所述特征詞集合;
訓練樣本構建模塊,基于添加了擴展特征詞后的所述特征詞集合中的特征詞構建若干訓練樣本;其中,所述若干訓練樣本中的部分訓練樣本被標記了樣本標簽;
分類模型訓練模塊,基于主動學習的方式,對所述若干訓練樣本,進行迭代訓練,得到用于對目標對象進行分類的分類模型。
以上技術方案中,一方面,由于在訓練階段采用了主動學習的方式進行模型訓練,因此,訓練樣本中可以只有一部分樣本被標記樣本標簽,所以無需人工對所有訓練樣本進行標記,降低了模型訓練過程中的人工成本;
另一方面,由于采用了近義詞擴展的方式對特征詞集合進行了補充,因此可以基于數量較少的初始樣本生成數量豐富的訓練樣本,有助于提高分類模型的精確度和覆蓋度。
附圖說明
此處的附圖被并入說明書中并構成本說明書的一部分,示出了符合本說明書的實施例,并與說明書文本一同用于解釋原理。
圖1是本說明書示出的一利用分類模型對企業進行分類的流程示例圖;
圖2是本說明書示出的一數據處理方法的流程示例圖;
圖3是本說明書示出的一主動學習方法進行模型訓練的流程示例圖;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于支付寶(杭州)信息技術有限公司,未經支付寶(杭州)信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010530028.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種基于動態時間規整的地震數據加權疊加方法
- 下一篇:一種干熄爐爐口水封蓋





