[發(fā)明專利]一種特征庫(kù)構(gòu)建方法和模型訓(xùn)練方法在審
| 申請(qǐng)?zhí)枺?/td> | 202111364402.6 | 申請(qǐng)日: | 2021-11-17 |
| 公開(kāi)(公告)號(hào): | CN114064583A | 公開(kāi)(公告)日: | 2022-02-18 |
| 發(fā)明(設(shè)計(jì))人: | 黃超華 | 申請(qǐng)(專利權(quán))人: | 珠海市魅族科技有限公司 |
| 主分類號(hào): | G06F16/16 | 分類號(hào): | G06F16/16;G06F16/17;G06N20/20;G06F16/14 |
| 代理公司: | 北京麥寶利知識(shí)產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙) 11733 | 代理人: | 劉麗萍 |
| 地址: | 519000 廣東*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 特征 構(gòu)建 方法 模型 訓(xùn)練 | ||
1.一種特征庫(kù)構(gòu)建方法,其特征在于,所述方法包括:
獲取第一文件樣本集,所述第一文件樣本集包括多個(gè)文件樣本和每個(gè)文件樣本的清理等級(jí);
從所述第一文件樣本集的每個(gè)文件樣本中提取可影響該文件樣本的清理等級(jí)的特征詞;
對(duì)提取的特征詞進(jìn)行過(guò)濾處理,以獲得多個(gè)有效特征詞;
設(shè)置每個(gè)有效特征詞的權(quán)重,并根據(jù)每個(gè)有效特征詞和每個(gè)有效特征詞的權(quán)重構(gòu)建用于推薦文件的清理等級(jí)的特征庫(kù)。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述從所述第一文件樣本集的每個(gè)文件樣本中提取可影響該文件樣本的清理等級(jí)的特征詞,包括:
從所述第一文件樣本集的每個(gè)文件樣本的內(nèi)部固有屬性中提取可影響該文件樣本的清理等級(jí)的特征詞;和/或
從所述第一文件樣本集的每個(gè)文件樣本的外部操作屬性中提取可影響該文件樣本的清理等級(jí)的特征詞。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述設(shè)置每個(gè)有效特征詞的權(quán)重,包括:
獲取第二文件樣本集,所述第二文件樣本集包括訓(xùn)練集和測(cè)試集,所述訓(xùn)練集和所述測(cè)試集中均包括多個(gè)文件樣本和每個(gè)文件樣本的清理等級(jí);
從獲得的所有有效特征詞中篩選出用于確定權(quán)重的目標(biāo)特征詞;
從所述訓(xùn)練集的多個(gè)文件樣本中提取與所述目標(biāo)特征詞相匹配的特征,將從所述訓(xùn)練集中提取的特征作為輸入并將對(duì)應(yīng)的清理等級(jí)作為輸出對(duì)預(yù)置的機(jī)器學(xué)習(xí)模型進(jìn)行訓(xùn)練;
從所述測(cè)試集的多個(gè)文件樣本中提取與所述目標(biāo)特征詞相匹配的特征,將從所述測(cè)試集中提取的特征輸入至訓(xùn)練好的機(jī)器學(xué)習(xí)模型,得到輸出的清理等級(jí);
根據(jù)所述輸出的清理等級(jí)和所述測(cè)試集中對(duì)應(yīng)的清理等級(jí),確定用于表征所述訓(xùn)練好的機(jī)器學(xué)習(xí)模型的優(yōu)劣的指標(biāo)值;
根據(jù)所述指標(biāo)值確定對(duì)應(yīng)的有效特征詞的權(quán)重。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,
所述從獲得的所有有效特征詞中篩選出用于確定權(quán)重的目標(biāo)特征詞,包括:
從獲得的所有有效特征詞中隨機(jī)篩選出一未確定權(quán)重的有效特征詞,作為所述目標(biāo)特征詞;
所述根據(jù)所述指標(biāo)值確定對(duì)應(yīng)的有效特征詞的權(quán)重,包括:
根據(jù)所述訓(xùn)練好的機(jī)器學(xué)習(xí)模型的準(zhǔn)確率、精確率和召回率確定當(dāng)前目標(biāo)特征詞的權(quán)重。
5.根據(jù)權(quán)利要求3所述的方法,其特征在于,
所述從獲得的所有有效特征詞中篩選出用于確定權(quán)重的目標(biāo)特征詞,包括:
從獲得的所有有效特征詞中隨機(jī)剔除一未確定權(quán)重的有效特征詞,并將剩余的所有有效特征詞作為所述目標(biāo)特征詞;
所述根據(jù)所述指標(biāo)值確定對(duì)應(yīng)的有效特征詞的權(quán)重,包括:
根據(jù)所述訓(xùn)練好的機(jī)器學(xué)習(xí)模型的準(zhǔn)確率、精確率和召回率確定當(dāng)前被剔除的有效特征詞的權(quán)重。
6.一種模型訓(xùn)練方法,其特征在于,應(yīng)用于包含一個(gè)中心服務(wù)器和多個(gè)客戶端的橫向聯(lián)邦學(xué)習(xí)系統(tǒng),所述方法包括:
所述中心服務(wù)器隨機(jī)獲取一機(jī)器學(xué)習(xí)模型并下發(fā)至各個(gè)客戶端;
所述客戶端獲取第三文件樣本集,所述第三文件樣本集包括多個(gè)文件樣本和每個(gè)文件樣本的清理等級(jí),且所述第三文件樣本集中的每個(gè)文件樣本均由該客戶端產(chǎn)生;
所述客戶端從所述第三文件樣本集的多個(gè)文件樣本中提取與特征庫(kù)中各個(gè)有效特征詞相匹配的特征,所述特征庫(kù)通過(guò)權(quán)利要求1至5任一項(xiàng)所述的方法獲得;
所述客戶端將從所述第三文件樣本集中提取的特征作為輸入并將對(duì)應(yīng)的清理等級(jí)作為輸出對(duì)所述機(jī)器學(xué)習(xí)模型進(jìn)行訓(xùn)練,計(jì)算出訓(xùn)練好的機(jī)器學(xué)習(xí)模型的模型梯度,并將所述模型梯度上傳至所述中心服務(wù)器;
所述中心服務(wù)器聚合各個(gè)客戶端上傳的模型梯度,并將聚合結(jié)果下發(fā)至各個(gè)客戶端;
所述客戶端按照所述聚合結(jié)果更新訓(xùn)練好的機(jī)器學(xué)習(xí)模型的模型參數(shù)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于珠海市魅族科技有限公司,未經(jīng)珠海市魅族科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111364402.6/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 構(gòu)建墊、實(shí)體圖像構(gòu)建物和構(gòu)建構(gòu)建物支撐件的方法
- 支持松耦合的軟件構(gòu)建方法、系統(tǒng)及該系統(tǒng)的實(shí)現(xiàn)方法
- 版本的構(gòu)建系統(tǒng)及方法
- 工程構(gòu)建系統(tǒng)及其構(gòu)建方法
- 實(shí)例構(gòu)建方法、裝置及軟件系統(tǒng)
- 軟件構(gòu)建方法、軟件構(gòu)建裝置和軟件構(gòu)建系統(tǒng)
- 天花板地圖構(gòu)建方法、構(gòu)建裝置以及構(gòu)建程序
- 一種項(xiàng)目構(gòu)建方法、持續(xù)集成系統(tǒng)及終端設(shè)備
- 并行構(gòu)建的方法、裝置及設(shè)備
- 構(gòu)建肺癌預(yù)測(cè)模型構(gòu)建方法
- 一種數(shù)據(jù)庫(kù)讀寫(xiě)分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





