[發明專利]基于模擬訓練的價格談判策略模型學習方法在審
| 申請號: | 202010640550.5 | 申請日: | 2020-07-06 |
| 公開(公告)號: | CN111861648A | 公開(公告)日: | 2020-10-30 |
| 發明(設計)人: | 俞揚;詹德川;周志華;姜允執 | 申請(專利權)人: | 南京大學 |
| 主分類號: | G06Q30/06 | 分類號: | G06Q30/06;G06N3/08;G06K9/62 |
| 代理公司: | 南京樂羽知行專利代理事務所(普通合伙) 32326 | 代理人: | 李玉平 |
| 地址: | 210023 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 模擬 訓練 價格 談判 策略 模型 學習方法 | ||
1.一種基于模擬訓練的價格談判策略模型學習方法,其特征在于,通過在處理器上執行價格談判對手模擬環境構造、賣家策略搜索和策略遷移三個模塊進行實現;
價格談判對手模擬環境構造模塊中,從真實的在線交易平臺中獲取的買賣雙方價格談判過程交互數據,并對交互數據進行學習;學習過程中,基于賣方視角對交互數據作狀態和動作數據分析,并將狀態數據和動作數據分別編碼為S和a,編碼完成后,根據時間先后順序,將交互數據排列為對應的狀態-動作序列,即(S0,a0,S1,a1,…,ST)序列;利用機器學習方法,從前述狀態-動作序列中學習得到兩類對手策略模型,即一般買家策略模型和對抗式對手策略模型;將這兩類對手策略模型混合,混合后的策略模型作為價格談判對手模擬器,該模擬器輸入當前的狀態數據與賣方執行的動作數據,并輸出動作數據執行完成后的下一個狀態數據;
價格談判對手模擬器構建完成后,賣家策略搜索模塊利用策略搜索方法,與價格談判對手模擬器交互,進行策略優化;
策略遷移模塊需要收集部署賣家策略搜索模塊提供的策略后,交易平臺產生的新的交互數據,用于對價格談判對手模擬器的進一步更新,并通過賣家策略搜索模塊重新搜索策略。
2.根據權利要求1所述的基于模擬訓練的價格談判策略模型學習方法,其特征在于,價格談判對手模擬器構建過程主要分為三步:
首先,構建一般買家策略模型,該模型用于模擬電商交易平臺中的普通買家在價格談判過程中的行為模式;
其次,構建對抗式對手策略模型,該模型用于模擬電商交易平臺中的惡意用戶在價格談判過程中的行為模式;
最后,通過選擇一個策略選擇函數,將一般買家策略模型和對抗式對手策略模型進行混合得到一個混合策略模型,作為價格談判對手模擬器使用。
3.根據權利要求1所述的基于模擬訓練的價格談判策略模型學習方法,其特征在于,構建一般買家策略模型時,采用神經網絡作為一般買家策略模型,準備好狀態-動作序列后,由于模型的輸入為當前一步的狀態和動作,輸出為下一步狀態,將從真實環境中收集到的交互數據、即狀態-動作序列(S0,a0,S1,a1,…,ST)進行切分,劃分出多個(St,at,St+1)的元組,其中St為策略模型當前一步的狀態,at為當前一步的動作,St+1為策略模型輸出的下一步狀態;其中(St,at)作為一般買家策略模型的輸入,St+1為輸出;一般買家策略模型需要學習這個輸入到輸出的對應關系;使用監督學習方法對這個對應關系進行學習,具體方案如下:
首先,對真實環境中的在線交易平臺的歷史交互數據進行劃分,得到由多個(St,at,St+1)元組組成的數據集,St+1為St的下一個狀態;
然后,使用監督學習方法,將(St,at)作為樣本,St+1作為預測目標,從劃分后的數據集中訓練出模擬器模型;
最后,訓練后模擬器模型根據輸入的狀態-動作對(St,at),預測下一個狀態St+1,作為價格談判對手模擬器中的一般買家策略模型使用。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京大學,未經南京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010640550.5/1.html,轉載請聲明來源鉆瓜專利網。





