[發明專利]基于小樣本擴展的互聯網服務提供方法、裝置及電子設備在審
| 申請號: | 202110799822.0 | 申請日: | 2021-07-15 |
| 公開(公告)號: | CN113569929A | 公開(公告)日: | 2021-10-29 |
| 發明(設計)人: | 李達;丁楠;蘇綏綏 | 申請(專利權)人: | 北京淇瑀信息科技有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06F16/958 |
| 代理公司: | 北京清誠知識產權代理有限公司 11691 | 代理人: | 宋紅艷 |
| 地址: | 100012 北京市朝陽*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 樣本 擴展 互聯網 服務 提供 方法 裝置 電子設備 | ||
本發明公開了一種基于小樣本擴展的互聯網服務提供方法、裝置及電子設備,所述方法包括:基于第一樣本數據和小樣本數據的共享特征生成具有標簽的混合樣本;采用第一比例的混合樣本訓練二分類模型;將剩余混合樣本輸入訓練好的二分類模型中得到預測值;根據所述預測值從第一樣本數據中提取目標樣本數據對小樣本數據進行擴展;采用擴展后的小樣本數據訓練預設互聯網服務的預設模型;根據訓練后的預設模型處理所述預設互聯網服務的指定任務。本發明基于一部分混合樣本訓練二分類模型,并根據訓練好的二分類模型在另一部分混合樣本上的表現提取目標樣本數據對小樣本數據進行擴展,得到小樣本的建模樣本,從而滿足對小樣本互聯網服務的個性化需求。
技術領域
本發明涉及數據處理技術領域,具體而言,涉及一種基于小樣本擴展的互聯網服務提供方法、裝置、電子設備及計算機可讀介質。
背景技術
隨著互聯網的發展,出現了各種互聯網服務平臺,比如:網購平臺、網約車平臺、共享平臺、地圖、音樂等等以互聯網為基礎的服務平臺。這些平臺通常會通過應用程序(Application,APP)、或者超文本標記語言(Hyper Text Markup Language 5,H5)頁面的方式向用戶設備提供服務。
在提供服務過程中,通常會通過機器學習模型對用戶設備進行分析,以提供個性化的服務。然而,性能優越的機器學習模型通常是基于特征豐富度高的訓練樣本構建的。在實際場景中,獲取大量的標注樣本數據費時費力,且部分場景下,僅能獲取少量的標注樣本,導致構建的模型性能較差。因此,亟需一種方法能夠對只有少量標注的小樣本進行擴展,以滿足對小樣本互聯網服務的個性化需求。
發明內容
有鑒于此,本發明主要目的在于提出一種基于小樣本擴展的互聯網服務提供方法、裝置、電子設備及計算機可讀介質,以期至少部分地解決上述技術問題中的至少之一。
為了解決上述技術問題,本發明第一方面提出一種基于小樣本擴展的互聯網服務提供方法,所述方法包括:
基于第一樣本數據和小樣本數據的共享特征生成具有標簽的混合樣本,所述標簽用于標識數據來源于所述第一樣本數據還是來源于所述小樣本數據;
采用第一比例的混合樣本訓練二分類模型;
將剩余混合樣本輸入訓練好的二分類模型中得到預測值;
根據所述預測值從第一樣本數據中提取目標樣本數據對小樣本數據進行擴展;
采用擴展后的小樣本數據訓練預設互聯網服務的預設模型;
根據訓練后的預設模型處理所述預設互聯網服務的指定任務。
根據本發明一種優選實施方式,所述基于第一樣本數據和小樣本數據的共享特征生成具有標簽的混合樣本包括:
根據所述第一樣本數據和所述小樣本數據的任務類型確定共享特征;
從第一樣本數據中抽取共享特征打上第一標簽,并從所述小樣本數據上抽取共享特征打上第二標簽,生成混合樣本。
根據本發明一種優選實施方式,所述根據所述預測值從第一樣本數據中提取目標樣本數據對小樣本數據進行擴展包括:
對所述預測值進行分箱處理,得到N個分箱;
根據每個分箱中的預測值確定閾值分箱;
根據所述閾值分箱確定閾值;
將所有第一樣本數據輸入訓練好的二分類模型中,得到預測結果,并根據所述預測結果及所述閾值從第一樣本數據中提取目標樣本數據對小樣本數據進行擴展。
根據本發明一種優選實施方式,計算每個分箱中小樣本數據累計占比與第一本數據累計占比之差的絕對值,再將最大絕對值對應的分箱作為閾值分箱。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京淇瑀信息科技有限公司,未經北京淇瑀信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110799822.0/2.html,轉載請聲明來源鉆瓜專利網。





