[發明專利]基于模擬訓練的價格談判策略模型學習方法在審
| 申請號: | 202010640550.5 | 申請日: | 2020-07-06 |
| 公開(公告)號: | CN111861648A | 公開(公告)日: | 2020-10-30 |
| 發明(設計)人: | 俞揚;詹德川;周志華;姜允執 | 申請(專利權)人: | 南京大學 |
| 主分類號: | G06Q30/06 | 分類號: | G06Q30/06;G06N3/08;G06K9/62 |
| 代理公司: | 南京樂羽知行專利代理事務所(普通合伙) 32326 | 代理人: | 李玉平 |
| 地址: | 210023 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 模擬 訓練 價格 談判 策略 模型 學習方法 | ||
本發明公開一種基于模擬訓練的價格談判策略模型學習方法,該方法以(1)基于機器學習的價格談判對手模擬器構建、(2)基于虛擬環境的智能價格談判策略優化、(3)價格談判策略的遷移優化三大模塊為特點,解決以往智能價格談判領域的方案試錯成本高、泛化性能差、策略易受攻擊的問題。
技術領域
本發明涉及一種基于模擬訓練的價格談判策略模型學習方法,具體是一種在基于機器學習方法構建的虛擬環境(即模擬器)中對在線交易平臺的智能價格談判策略進行訓練的方法,屬于人工智能及互聯網數據處理技術領域。
背景技術
在線電商平臺的價格談判過程中,價格談判的過程通常由買方發起,買賣雙方根據交易涉及的商品信息和己方對商品價值的評估,通過自身的價格策略交替對商品進行出價,直至雙方就最終成交價格達成一致,或談判破裂為止。從賣方的角度看來,這是一個典型的序列決策過程,價格談判的目標是在盡可能提高成交價格的同時保證談判能夠成功。由于價格談判中,賣方無從得知買方的價格策略,并且買方仍能夠通過交易平臺對相似的其他商品進行比價,因此價格談判的過程一般是一個持續的、動態變化的過程,賣家在此過程中需要根據個人經驗進行決策,即決定下一輪是否要接受對方的報價,或提出怎樣的報價。
強化學習是學習過程要求智能體與環境不斷交互試錯,以幫助智能體在環境中逐漸學得最優控制策略(即最優決策策略),從而自動完成決策任務。然而,強化學習的過程中令智能體與環境進行大量交互試錯的過程,在實際的價格談判過程中是難以實行的。如果在實際的談判過程中直接使用強化學習,則需要使用大量不同的價格策略配置在真實的交易平臺中進行試錯,然后從這些策略與平臺中的買家的交互軌跡中,學習得到最優的價格策略,顯然這種方法會帶來巨大的經濟損失和時間成本,是無法接受的。
發明內容
發明目的:針對現有技術中存在的問題與不足,本發明提供一種基于模擬訓練的價格談判策略模型學習方法。
技術方案:一種基于模擬訓練的價格談判策略模型學習方法,通過在處理器上執行價格談判對手模擬環境構造、賣家策略搜索和策略遷移三個模塊進行實現,由于在現實中的在線交易平臺上,通常在一段較短時間內僅有一名買家與賣家進行價格談判過程,因此本發明在對價格談判對手模擬環境構造時,只考慮一對一的價格談判過程,在每次賣方出價后,談判對手模擬環境給出買方的新一輪出價。
價格談判對手模擬環境構造模塊中,從真實環境的在線交易平臺中獲取的買賣雙方價格談判過程交互數據,并對交互數據進行學習;學習過程中,基于賣方視角對交互數據作狀態和動作數據分析,并將狀態數據和動作數據分別編碼為S和a,編碼完成后,根據時間先后順序,將交互數據排列為對應的狀態-動作序列,即(S0,a0,S1,a1,…,ST)序列;利用機器學習方法,從前述狀態-動作序列中學習得到兩類對手策略模型,即一般買家策略模型和對抗式對手策略模型,二者分別對應平臺中的普通買家和惡意攻擊者;隨后將這兩類對手策略模型混合,混合后的策略模型作為價格談判對手模擬器,該模擬器輸入當前的狀態數據與賣方執行的動作數據,并輸出動作數據執行完成后的下一個狀態數據。
價格談判對手模擬器構建完成后,賣家策略搜索模塊利用策略搜索方法,與價格談判對手模擬器交互,進行策略優化。例如優化目標為最大化成交價格的均值,并根據實際場景,建立約束,如限制成交價格大于底價等,通過策略搜索方法,得到價格談判策略。
由于價格談判對手模擬器和真實買家策略的狀態和動作空間具有一致性,可將在價格談判對手模擬環境中學得的價格談判策略直接應用到真實交易平臺上的價格談判過程中,但在實際價格談判場景中,買家的策略通常也隨時間的變化而不斷改變,因此將搜索得到的價格談判策略部署后,策略遷移模塊需要收集部署賣家策略搜索模塊提供的策略后,交易平臺產生的新的交互數據,用于對價格談判對手模擬器的進一步更新,并通過賣家策略搜索模塊重新搜索策略,以提高價格談判對手模擬器和從模擬器中搜索得到的價格談判策略模型的準確度和適應性。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京大學,未經南京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010640550.5/2.html,轉載請聲明來源鉆瓜專利網。





