[發(fā)明專利]AI模型訓(xùn)練方法、調(diào)用方法、服務(wù)器及存儲(chǔ)介質(zhì)在審

申請(qǐng)?zhí)枺?/td>	202011176373.6	申請(qǐng)日：	2020-10-28
公開(kāi)（公告）號(hào)：	CN112274925A	公開(kāi)（公告）日：	2021-01-29
發(fā)明（設(shè)計(jì)）人：	朱展圖;周正;李宏亮;劉永升	申請(qǐng)（專利權(quán)）人：	超參數(shù)科技（深圳）有限公司
主分類號(hào)：	A63F13/55	分類號(hào)：	A63F13/55;A63F1/00;G06N3/04;G06N3/08
代理公司：	深圳市力道知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 44507	代理人：	何姣
地址：	518000 廣東省深圳市南山區(qū)粵海街道高新***	國(guó)省代碼：	廣東;44
權(quán)利要求書(shū)：	查看更多	說(shuō)明書(shū)：	查看更多
摘要：
搜索關(guān)鍵詞：	ai 模型訓(xùn)練方法調(diào)用服務(wù)器存儲(chǔ) 介質(zhì)
鉆瓜網(wǎng) 技術(shù)展會(huì) 專利詞庫(kù) 專利權(quán)人專利榜在售專利公布日期熱門專利

【說(shuō)明書(shū)】：

本申請(qǐng)公開(kāi)了一種AI模型訓(xùn)練方法、調(diào)用方法、服務(wù)器及存儲(chǔ)介質(zhì)，該方法包括：獲取多組第一樣本數(shù)據(jù)；將每一組所述第一樣本數(shù)據(jù)輸入AI模型，基于監(jiān)督學(xué)習(xí)對(duì)所述AI模型進(jìn)行迭代訓(xùn)練，直至所述AI模型收斂，獲得所述不同級(jí)別中每個(gè)級(jí)別對(duì)應(yīng)的Agent的AI模型；隨機(jī)初始化所述AI模型進(jìn)行樣本生成操作，獲取第二樣本數(shù)據(jù)；將所述第二樣本數(shù)據(jù)反向傳播輸入至所述AI模型，基于強(qiáng)化學(xué)習(xí)對(duì)所述AI模型進(jìn)行迭代訓(xùn)練，并將訓(xùn)練結(jié)果作為新的第二樣本數(shù)據(jù)，循環(huán)執(zhí)行所述將所述第二樣本數(shù)據(jù)反向傳播輸入至所述AI模型，基于強(qiáng)化學(xué)習(xí)對(duì)所述AI模型進(jìn)行迭代訓(xùn)練的步驟，直至所述AI模型收斂，獲得其他級(jí)別對(duì)應(yīng)的Agent的AI模型。因此，提高了AI模型的準(zhǔn)確性。

技術(shù)領(lǐng)域

本申請(qǐng)涉及人工智能技術(shù)領(lǐng)域，尤其涉及一種AI模型訓(xùn)練方法、調(diào)用方法、服務(wù)器及存儲(chǔ)介質(zhì)。

背景技術(shù)

隨著人工智能(Artificial Intelligence，AI)技術(shù)的快速發(fā)展，人工智能技術(shù)被廣泛的應(yīng)用于各個(gè)領(lǐng)域，目前，在游戲娛樂(lè)領(lǐng)域，通過(guò)人工智能技術(shù)可以實(shí)現(xiàn)棋類游戲中虛擬Agent與真人用戶之間的對(duì)局，且可以戰(zhàn)勝最頂級(jí)的職業(yè)選手。而牌類游戲，經(jīng)常是多人參與，游戲參與玩家之間的牌是互不知曉的，因此，研發(fā)牌類游戲Agent對(duì)應(yīng)的AI模型具有更大的挑戰(zhàn)。

目前，主要基于深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)來(lái)實(shí)現(xiàn)AI模型，通常是基于每一方的數(shù)據(jù)單獨(dú)進(jìn)行AI模型的訓(xùn)練，無(wú)法充分的利用數(shù)據(jù)，AI模型的準(zhǔn)確性較差。因此，如何提高AI模型的準(zhǔn)確性是目前亟待解決的問(wèn)題。

發(fā)明內(nèi)容

本申請(qǐng)實(shí)施例提供一種AI模型訓(xùn)練方法、調(diào)用方法、服務(wù)器及存儲(chǔ)介質(zhì)，可以實(shí)現(xiàn)提高AI模型的準(zhǔn)確性。

第一方面，本申請(qǐng)實(shí)施例提供了一種AI模型訓(xùn)練方法，包括：

獲取多組第一樣本數(shù)據(jù)，所述多組第一樣本數(shù)據(jù)為不同級(jí)別的多個(gè)用戶對(duì)應(yīng)的數(shù)據(jù)；

將每一組所述第一樣本數(shù)據(jù)輸入AI模型，基于監(jiān)督學(xué)習(xí)對(duì)所述AI模型進(jìn)行迭代訓(xùn)練，直至所述AI模型收斂，獲得所述不同級(jí)別中每個(gè)級(jí)別對(duì)應(yīng)的Agent的AI模型；

隨機(jī)初始化所述AI模型進(jìn)行樣本生成操作，獲取第二樣本數(shù)據(jù)；

將所述第二樣本數(shù)據(jù)反向傳播輸入至所述AI模型，基于強(qiáng)化學(xué)習(xí)對(duì)所述AI模型進(jìn)行迭代訓(xùn)練，并將訓(xùn)練結(jié)果作為新的第二樣本數(shù)據(jù)，循環(huán)執(zhí)行所述將所述第二樣本數(shù)據(jù)反向傳播輸入至所述AI模型，基于強(qiáng)化學(xué)習(xí)對(duì)所述AI模型進(jìn)行迭代訓(xùn)練的步驟，直至所述AI模型收斂，獲得所述不同級(jí)別以外的其他級(jí)別對(duì)應(yīng)的Agent的AI模型。

第二方面，本申請(qǐng)實(shí)施例還提供了一種AI模型調(diào)用方法，包括：

獲取待評(píng)估Agent對(duì)應(yīng)的第一初始評(píng)估參數(shù)；

根據(jù)所述第一初始評(píng)估參數(shù)，選取與所述第一初始評(píng)估參數(shù)匹配的多個(gè)第一類基準(zhǔn)Agent的AI模型；

調(diào)用多個(gè)所述第一類基準(zhǔn)Agent的AI模型，控制所述待評(píng)估Agent與多個(gè)所述第一類基準(zhǔn)Agent執(zhí)行相應(yīng)的對(duì)局操作，以對(duì)所述待評(píng)估Agent進(jìn)行能力評(píng)估。

第三方面，本申請(qǐng)實(shí)施例還提供了一種服務(wù)器，其特征在于，所述服務(wù)器包括處理器、存儲(chǔ)器、以及存儲(chǔ)在所述存儲(chǔ)器上并可被所述處理器執(zhí)行的計(jì)算機(jī)程序，所述存儲(chǔ)器存儲(chǔ)有AI模型，其中所述計(jì)算機(jī)程序被所述處理器執(zhí)行時(shí)，實(shí)現(xiàn)如上述的AI模型訓(xùn)練方法；或者，實(shí)現(xiàn)如上述的AI模型調(diào)用方法。

第四方面，本申請(qǐng)實(shí)施例還提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)用于存儲(chǔ)計(jì)算機(jī)程序，所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)使所述處理器實(shí)現(xiàn)上述的AI模型訓(xùn)練方法；或者，實(shí)現(xiàn)上述的AI模型調(diào)用方法。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會(huì)員可以免費(fèi)下載。

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于超參數(shù)科技（深圳）有限公司，未經(jīng)超參數(shù)科技（深圳）有限公司許可，擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請(qǐng)聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202011176373.6/2.html，轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。