[發明專利]機器學習系統的數據接入方法、裝置、系統和存儲介質在審
| 申請號: | 202110215127.5 | 申請日: | 2021-02-25 |
| 公開(公告)號: | CN112948476A | 公開(公告)日: | 2021-06-11 |
| 發明(設計)人: | 平津;詹鎮江 | 申請(專利權)人: | 第四范式(北京)技術有限公司 |
| 主分類號: | G06F16/25 | 分類號: | G06F16/25;G06N20/20;G06F9/48 |
| 代理公司: | 北京開陽星知識產權代理有限公司 11710 | 代理人: | 郭鑫 |
| 地址: | 100085 北京市海淀區清*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 機器 學習 系統 數據 接入 方法 裝置 存儲 介質 | ||
本公開實施例涉及機器學習系統的數據接入方法、裝置、系統和存儲介質。數據接入方法包括:獲取指定的應用場景信息和指定的數據源信息;獲取指定的數據轉換腳本信息,指定的數據轉換腳本用于將指定的數據源的第二格式轉換為指定的應用場景下的輸入數據流的第一格式;基于指定的應用場景信息、指定的數據源信息和指定的數據轉換腳本信息,配置數據接入任務;執行數據接入任務,以使數據接入任務將指定的數據源的數據接入機器學習系統。本公開實施例中,針對不同的應用場景信息、不同的數據源信息和不同的數據轉換腳本信息,可配置不同的數據接入任務,以滿足外部數據接入機器學習系統時數據格式的轉換需求,避免數據格式不符導致接入失敗的問題。
技術領域
本公開實施例涉及機器學習技術領域,具體涉及一種機器學習系統的數據接入方法、裝置、系統和存儲介質。
背景技術
機器學習系統是自動化構建機器學習模型、自動化應用機器學習模型(以提供模型預估服務)、自動化更新機器學習模型的一種全流程機器學習系統。用戶無需機器學習專業技能,即可使用機器學習系統實現人工智能(AI)技術在實際場景的落地。
機器學習系統通常需要接入多種數據流以便實現上述自動化全流程,其中,多種數據流例如包括:請求數據流、反饋數據流、曝光數據流、業務數據流。機器學習系統的請求數據流、反饋數據流、曝光數據流對外暴露的是HTTP(Hypertext Transfer Protocol,超文本傳輸協議)接口,在實際應用場景中,客戶返回的反饋數據流、曝光數據流可能存放在某個隊列中,需要通過消費隊列中的數據實現將數據實時接入機器學習系統。而機器學習系統的業務數據流對外暴露的是kafka(分布式發布訂閱消息系統)接口,在實際應用場景中,業務數據可能存放在HDFS(Hadoop Distributed File System,分布式文件系統)、本地磁盤等多種存儲介質中,需要通過從存儲介質中拉取數據實現將數據批量接入機器學習系統。另外,客戶側的數據格式(包括字段名稱、字段格式等)可能與機器學習系統的數據格式不符,因此在外部數據(例如客戶側的數據,也即機器學習系統內部生成的數據非外部數據)接入機器學習系統之前,需要進行數據格式轉換,以使外部數據的數據格式與機器學習系統的數據格式相符。
為此,亟需提供一種機器學習系統的數據接入方案,以便將外部數據接入機器學習系統。
發明內容
為了解決現有技術存在的至少一個問題,本公開的至少一個實施例提供了一種機器學習系統的數據接入方法、裝置、系統和存儲介質。
第一方面,本公開實施例提供一種機器學習系統的數據接入方法,所述機器學習系統預先設置不同應用場景下的輸入數據流的第一格式,所述方法包括:
獲取指定的應用場景信息和指定的數據源信息;
獲取指定的數據轉換腳本信息,指定的數據轉換腳本用于將指定的數據源的第二格式轉換為指定的應用場景下的輸入數據流的第一格式;
基于所述指定的應用場景信息、所述指定的數據源信息和所述指定的數據轉換腳本信息,配置數據接入任務;
執行所述數據接入任務,以使所述數據接入任務將指定的數據源的數據接入所述機器學習系統。
在一些實施例中,所述獲取指定的應用場景信息包括:
接收用于獲取應用場景的請求;
獲取所述機器學習系統預先設置的一個或多個應用場景信息;
響應所述請求而反饋所述一個或多個應用場景信息;
接收從所述一個或多個應用場景信息中指定的應用場景信息。
在一些實施例中,所述獲取指定的應用場景信息之前,所述方法還包括:
提供用戶界面;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于第四范式(北京)技術有限公司,未經第四范式(北京)技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110215127.5/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





