[發明專利]用于人機交互的行為決策方法、裝置、設備及存儲介質在審
| 申請號: | 202210836407.2 | 申請日: | 2022-07-15 |
| 公開(公告)號: | CN115186828A | 公開(公告)日: | 2022-10-14 |
| 發明(設計)人: | 吳翼;于超;汪玉;高嘉煊;劉巍林 | 申請(專利權)人: | 清華大學 |
| 主分類號: | G06N20/00 | 分類號: | G06N20/00;G06N5/04;G06N7/00;A63F13/67;A63F13/79 |
| 代理公司: | 北京清亦華知識產權代理事務所(普通合伙) 11201 | 代理人: | 李雪靜 |
| 地址: | 100084*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 人機交互 行為 決策 方法 裝置 設備 存儲 介質 | ||
本申請涉及人工智能技術領域,特別涉及一種用于人機交互的行為決策方法、裝置、設備及存儲介質,其中,方法包括:獲取人機交互場景中至少一個目標事件;隨機搜索至少一個目標事件的目標獎勵函數空間,得到多個行為偏好,基于多個行為偏好生成偏置策略集合,根據預設行為指標從偏置策略集合中依次選擇不同類型的偏見策略,根據不同類型的偏見策略和預設獎勵策略構建策略多樣化的策略池;從策略池中隨機采樣策略訓練得到目標智能體的自適應策略,并基于自適應策略決策與目標智能體進行人機交互的行為,得到行為決策結果。由此,本申請實施例可以實現以人為中心的強交互與協同泛化性,以及大規模多智能體在開放場景中的群體行為決策泛化性。
技術領域
本申請涉及人工智能技術領域,特別涉及一種用于人機交互的行為決策方法、裝置、設備及存儲介質。
背景技術
經過數十年的研究努力,構建可以與人類交互、合作和輔助人類的智能體仍然是一項長期的AI挑戰。經典方法通常是基于模型的(model-based),它通常是基于人類數據建立一個有效的行為模型,并使用這樣的人類模型進行規劃。盡管這種方案取得了巨大成功,但這種基于模型的范式需要一個昂貴且耗時的數據收集過程,這對于當今AI技術面向的復雜問題很不友好,并且還可能存在隱私問題。
最近,多智能體強化學習(multi-agent reinforcement learning,MARL)已成為解決許多具有挑戰性的決策問題的有前途的方法。特別是在競爭環境中,基于自我博弈(self-play,SP)的MARL算法訓練的人工智能在各個領域都擊敗了人類專業人士。這一經驗證據表明,開發強大的AI的新方向可以以類似的“無模型”(model-free)方式直接與人類合作,即通過自我博弈。
與簡單地采用納什均衡策略(Nash equilibrium strategy)就足夠的零和游戲(zero-sum game)不同,通過自我博弈訓練合作智能體時的一個明顯問題是共識過度擬合(convention overfitting)。由于合作博弈中存在大量可能的最優策略,自我博弈訓練的智能體可以很容易地收斂到一個特定的最優值,并僅根據其共同訓練者的某種特定行為模式(即共識)做出決策,導致對未知的合作伙伴的泛化能力差。
發明內容
本申請提供一種用于人機交互的行為決策方法、裝置、電子設備及存儲介質,可以實現以人為中心的強交互與協同泛化性,以及大規模多智能體在開放場景中的群體行為決策泛化性。
本申請第一方面實施例提供一種用于人機交互的行為決策方法,包括以下步驟:獲取人機交互場景中至少一個目標事件;隨機搜索所述至少一個目標事件的目標獎勵函數空間,得到多個行為偏好,基于所述多個行為偏好生成偏置策略集合,根據預設行為指標從所述偏置策略集合中依次選擇不同類型的偏見策略,根據所述不同類型的偏見策略和預設獎勵策略構建策略多樣化的策略池;從所述策略池中隨機采樣策略訓練得到目標智能體的自適應策略,并基于所述自適應策略決策與所述目標智能體進行人機交互的行為,得到行為決策結果。
可選地,所述隨機搜索所述至少一個目標事件的目標獎勵函數空間,得到多個行為偏好,基于所述多個行為偏好生成偏置策略集合,包括:對所述目標獎勵函數空間的特征權重采樣多個樣本,并根據所述多個樣本得到一組隱藏的獎勵函數;對于每個隱藏獎勵函數,通過自我博弈找到由其推導的隱勢能馬爾可夫博弈的近似納什均衡解,并基于所述近似納什均衡解得到涵蓋多個行為偏好的偏置策略集合。
可選地,所述根據預設行為指標從所述偏置策略集合中依次選擇不同類型的偏見策略,包括:獲取初始池中的初始策略;根據預設行為指標從所述偏置策略集合中選擇與所述初始策略不同的偏見策略。
可選地,在隨機搜索所述至少一個目標事件的目標獎勵函數空間之前,包括:識別所述至少一個目標事件的事件特征;根據所述事件特征的線性函數和特征權重的界限生成所述目標獎勵函數空間。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清華大學,未經清華大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210836407.2/2.html,轉載請聲明來源鉆瓜專利網。





