[發明專利]交互任務的控制方法、裝置、電子設備及存儲介質有效
| 申請號: | 202010225186.6 | 申請日: | 2020-03-26 |
| 公開(公告)號: | CN111443806B | 公開(公告)日: | 2023-08-11 |
| 發明(設計)人: | 李曉倩;邱福浩;韓國安;付強;王亮 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F3/01 | 分類號: | G06F3/01;G06N20/00 |
| 代理公司: | 北京市立方律師事務所 11330 | 代理人: | 張筱寧 |
| 地址: | 518000 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 交互 任務 控制 方法 裝置 電子設備 存儲 介質 | ||
本申請涉及人工智能技術領域,提供了一種交互任務的控制方法、裝置、電子設備及存儲介質,該方法包括:獲取交互任務中的交互狀態;將所述交互狀態輸入機器學習模型獲取目標對象在所述交互任務中的控制策略;其中,所述機器學習模型由包括內部收益模型的機器訓練網絡訓練而得,所述內部收益模型對用于訓練的交互數據進行計算得到相應的交互狀態和內部收益值;所述內部收益值表征所述機器學習模型在所述交互狀態下的收斂程度;基于所述控制策略控制所述目標對象進行交互操作。本申請在機器學習模型的訓練過程中采用內部收益模型計算表征模型訓練收斂程度的內部收益值,可有效避免對模型訓練過度,提高模型訓練效率。
技術領域
本申請涉及人工智能技術領域,具體而言,本申請涉及一種交互任務的控制方法、裝置、電子設備及存儲介質。
背景技術
人工智能(Artificial?Intelligence,AI)是利用數字計算機或者數字計算機控制的機器模擬、延伸和擴展人的智能,感知環境、獲取知識并使用知識獲得最佳結果的理論、方法、技術及應用系統。機器學習(Machine?Learning,ML)是人工智能技術中一門多領域交叉學科,其專門研究計算機怎樣模擬或實現人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的性能。
在機器學習中可采用強化學習的方法訓練AI模型,使得AI模型模擬人類的操作方式與人類進行交互。在強化學習過程中,其涉及到一個探索與利用的均衡問題,探索可以幫助模型充分了解運行環境,利用可以幫助模型選擇當前最優的策略執行;但是如果探索過多模型難以收斂,利用過多模型容易陷入最優解,導致模型能力較低。
現有技術中,解決平衡探索和利用的均衡問題時,一般采用探索策略中的貪心策略(ε-greedy策略),但是該策略雖然可以在前期使模型能探索到過多的狀態,避免模型陷入局部最優解,但是后期過多的探索導致模型收斂速度較慢,且對所有非最優行為采用相同的概率去探索,沒有采取針對性探索,導致模型浪費大量的時間在無意義的探索行為上,其探索效率低下,將導致模型能力較低,在執行任務時無法輸出最優的策略。
發明內容
本申請提供了一種交互任務的控制方法、裝置、電子設備及存儲介質,可以解決上述至少一種技術問題。所述技術方案如下:
第一方面,提供了一種交互任務的控制方法,包括:獲取交互任務中的交互狀態;將所述交互狀態輸入機器學習模型獲取目標對象在所述交互任務中的控制策略;其中,所述機器學習模型由包括內部收益模型的機器訓練網絡訓練而得,所述內部收益模型對用于訓練的交互數據進行計算得到相應的交互狀態和內部收益值;所述內部收益值表征所述機器學習模型在所述交互狀態下的收斂程度;基于所述控制策略控制所述目標對象進行交互操作。
結合第一方面,在第一方面的第一種實施方式中,所述機器訓練網絡包括自對弈模型以及由內部收益模型和外部收益模型構成的收益模型,其中,所述外部收益模型對用于訓練的交互數據進行計算得到外部收益值,所述外部收益值為控制目標對象進行交互操作所得收益;所述機器學習模型的訓練步驟包括:將所述自對弈模型自對弈時生成的交互數據輸入所述收益模型,獲得訓練數據;所述自對弈模型自對弈為采用機器學習模型控制目標對象以及與目標對象交互的交互對象進行交互;基于所述訓練數據訓練所述機器學習模型。
結合第一方面的第一種實施方式,在第一方面的第二種實施方式中,所述基于所述訓練數據訓練所述機器學習模型,包括:將所述訓練數據輸入所述機器學習模型,獲得更新后的機器學習模型;將所述更新后的機器學習模型反饋至所述自對弈模型,迭代所述訓練數據,以迭代更新所述機器學習模型。
結合第一方面的第一種實施方式,在第一方面的第三種實施方式中,所述將所述自對弈模型自對弈時生成的交互數據輸入所述收益模型,獲得訓練數據,包括:將所述自對弈模型自對弈生成的交互數據進行特征抽取,獲得目標狀態特征;其中,所述目標狀態特征包括以單元方式表達的目標對象與交互對象的屬性特征;將所述目標狀態特征輸入所述收益模型,獲得訓練數據。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010225186.6/2.html,轉載請聲明來源鉆瓜專利網。





