[發明專利]實現時序特征抽取的方法及裝置在審
| 申請號: | 202010534425.6 | 申請日: | 2020-06-12 |
| 公開(公告)號: | CN113806353A | 公開(公告)日: | 2021-12-17 |
| 發明(設計)人: | 包新啟;陳迪豪;陳靚;王太澤 | 申請(專利權)人: | 第四范式(北京)技術有限公司 |
| 主分類號: | G06F16/22 | 分類號: | G06F16/22;G06F16/2458;G06F16/27;G06N20/00 |
| 代理公司: | 北京展翼知識產權代理事務所(特殊普通合伙) 11452 | 代理人: | 王明遠 |
| 地址: | 100085 北京市海淀區上*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 實現 時序 特征 抽取 方法 裝置 | ||
提供了一種實現時序特征抽取的方法及裝置。獲取輸入的數據表;若時間窗口長度與數據表中全量數據的時間字段對應的總時間范圍的時間長度的比值低于閾值,則將總時間范圍拆分為多個時間片,時間窗口用于表征對單條數據進行時序特征抽取時需要依賴的數據的時間范圍,時間片的時間寬度大于或等于2倍時間窗口長度;按照主鍵和時間片將數據表中的數據劃分到多個區塊中,每個區塊對應一個時間片,并且同一區塊中數據的主鍵相同;將多個區塊分配給多個計算節點進行時序特征抽取處理。由此,通過按照主鍵和時間片對數據進行分區,使得原本傾斜的大數據量分區數據能夠被拆分到多個均衡數據量的分區,并且可以解決因主鍵數量較少而導致的數據傾斜問題。
技術領域
本發明總體說來涉及特征工程領域,更具體地說,涉及一種實現時序特征抽取的方法及裝置。
背景技術
在機器學習建模特征工程中,時序特征是指對某條樣本進行特征抽取依賴于該條樣本的時間戳所處一段時間范圍內的歷史樣本數據,這一時間范圍即為時序特征抽取的時間窗口。
時序特征是機器學習建模特征工程中非常重要的組成部分,它們能夠更好地刻畫樣本在時間維度的整體特性,有效提升特征的表達能力和質量,增強后續的模型效果。但是在實際建模場景中,時序特征的抽取性能常常面臨考驗,原因就是時間窗口數據傾斜問題。
時間窗口數據傾斜問題是指,按照主鍵列分區導致不同的分區數據量不均衡或者只能產生少量分區:(1)分區數據量不均衡是指,每個分區數據量等于該分區的主鍵下數據量,如果不同主鍵下數據量不均衡,則會導致分區數據量不均衡;(2)分區太少是指,分區數目等于不同主鍵的數目,如果分區數目太少(比如主鍵=性別),則計算并行度太小(等價于有很多數據量為0的分區),同樣會導致數據傾斜問題。
因此,需要一種能夠解決數據傾斜問題的時序特征抽取方案。
發明內容
本發明的示例性實施例旨在克服時序特征抽取過程中存在的數據傾斜問題。
根據本發明的第一個方面,提供了一種實現時序特征抽取的方法,包括:獲取輸入的數據表;若時間窗口長度與數據表中全量數據的時間字段對應的總時間范圍的時間長度的比值低于閾值,則將總時間范圍拆分為多個時間片,時間窗口用于表征對單條數據進行時序特征抽取時需要依賴的數據的時間范圍,時間片的時間寬度大于或等于2倍時間窗口長度;按照主鍵和時間片將數據表中的數據劃分到多個區塊中,其中,每個區塊對應一個時間片,并且同一區塊中數據的主鍵相同;將多個區塊分配給多個計算節點進行時序特征抽取處理。
可選地,若數據表中數據隨時間均勻分布,則將總時間范圍拆分為多個時間片的步驟包括:統計數據表中全量數據的時間字段對應的總時間范圍;根據分片數、總時間范圍,確定每個時間片的時間寬度,每個時間片的時間寬度等于總時間范圍與分片數的比值;按照時間寬度將總時間范圍拆分為多個時間片。
可選地,若數據表中數據不隨時間均勻分布,則將總時間范圍拆分為多個時間片的步驟包括:統計數據表中全量數據的直方圖,直方圖的橫軸表示時間字段值,直方圖的縱軸表示數據量;基于直方圖將總時間范圍拆分為多個時間片,其中,不同時間片對應的時間范圍內的數據量相等或基本相等。
可選地,該方法還包括:判斷數據表中數據是否隨時間均勻分布。
可選地,該方法還包括:由用戶指定分片數;或者通過啟發式規則設置分片數。
可選地,該方法還包括:在將數據表中的每條數據劃分到區塊的過程中,判斷該條數據是否為該條數據所在區塊的下一區塊中的數據進行時序特征抽取時需要依賴的邊界數據;若判定該條數據是邊界數據,則將該條數據標記為復制數據并添加到下一區塊中,其中,計算節點忽略復制數據的時序特征抽取處理。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于第四范式(北京)技術有限公司,未經第四范式(北京)技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010534425.6/2.html,轉載請聲明來源鉆瓜專利網。





