[發明專利]使用上下文信息進行蒙特卡羅規劃的方法和系統在審
| 申請號: | 201310009910.1 | 申請日: | 2013-01-10 |
| 公開(公告)號: | CN103208041A | 公開(公告)日: | 2013-07-17 |
| 發明(設計)人: | G·J·泰紹羅;A·貝格爾茲莫;R·B·塞加爾;M·N·韋格曼 | 申請(專利權)人: | 國際商業機器公司 |
| 主分類號: | G06Q10/06 | 分類號: | G06Q10/06 |
| 代理公司: | 北京市中咨律師事務所 11247 | 代理人: | 于靜;張亞非 |
| 地址: | 美國*** | 國省代碼: | 美國;US |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 使用 上下文 信息 進行 蒙特卡羅 規劃 方法 系統 | ||
1.一種用于選擇規劃問題狀態下的操作的方法,所述方法包括:
在所述規劃問題狀態的模擬模型中運行多個模擬試驗,所述模擬試驗包含在所述狀態下導致模擬回報結果的至少一個可用頂級操作;
響應于在所述模擬試驗中獲得的所述模擬回報結果,在完成所述模擬試驗時推薦要在所述規劃問題狀態下執行的操作,
其中所述模擬試驗中的至少一個模擬試驗執行一個或多個步驟,所述步驟包括:
觀察模擬狀態下的上下文狀態信息;以及
響應于所觀察的上下文狀態信息而選擇所述模擬狀態下的可用操作;
其中包括至少一個處理器和連接到所述處理器的至少一個存儲設備的計算系統執行所述運行、推薦、觀察和選擇。
2.根據權利要求1的方法,其中模擬試驗的所述一個或多個步驟進一步包括:
響應于所觀察的上下文狀態信息而估計所述模擬狀態下的至少一個可用操作的預期回報,其中響應于所觀察的上下文狀態信息而選擇所述模擬狀態下的可用操作包括:響應于可用操作的估計預期回報而選擇所述模擬狀態下的可用操作。
3.根據權利要求2的方法,其中模擬試驗的所述一個或多個步驟進一步包括:
響應于模擬操作而觀察多個模擬回報,以及
更新所述模擬試驗中的對應頂級操作處的模擬回報統計;所述計算系統還執行所述觀察和更新。
4.根據權利要求3的方法,其中模擬試驗的所述一個或多個步驟進一步包括:
響應于所選擇的操作而模擬向新狀態的轉變,所觀察的多個模擬回報響應于以下項中的一個或多個:所選擇的操作或所述狀態轉變。
5.根據權利要求3的方法,其中模擬試驗的所述一個或多個步驟進一步包括:
維護數據對集合,所述數據對包括所觀察的上下文狀態信息和與所選擇的可用操作關聯的所觀察的對應模擬回報。
6.根據權利要求5的方法,其中從所觀察的上下文狀態信息估計所述預期回報包括:
在模擬試驗的所述一個或多個步驟期間,實施回歸模型并計算有關與可用操作關聯的所述數據對集合的回歸擬合;
根據所實施的回歸模型估計以下項中的一個或多個:平均預期回報或所述平均值中的不確定性;以及
響應于以下項中的一個或多個而計算效用:所估計的平均回報或所估計的所述平均值中的不確定性,其中根據所計算的效用而選擇所述操作。
7.根據權利要求6的方法,其中根據所計算的效用而選擇操作包括:計算多個可用操作的效用,以及選擇具有所計算的最大效用的操作。
8.根據權利要求4的方法,其中所觀察的多個模擬回報包括在所述模擬向新狀態的轉變時觀察的立即回報,或包括還包含在所述模擬試驗的后續步驟中所觀察的模擬回報的累積回報。
9.根據權利要求6的方法,其中估計所述平均值中的不確定性包括:
向所述數據對添加包括當前上下文狀態信息和最大回報值的額外數據對;
重新計算有關所述數據對的回歸擬合;
根據重新計算的回歸擬合重新估計所述平均預期回報;以及
根據原始平均預期回報和重新計算的平均預期回報之間的差估計所述平均值中的不確定性。
10.一種用于選擇規劃問題狀態下的操作的系統,所述系統包括:
所述規劃問題的模擬器,其包括至少一個處理器;以及
連接到所述處理器的至少一個存儲設備,其中所述處理器被編程以執行以下操作:
在所述規劃問題狀態的模擬模型中運行多個模擬試驗,所述模擬試驗包含在所述狀態下導致模擬回報結果的至少一個可用頂級操作;
響應于在所述模擬試驗中獲得的所述模擬回報結果,在完成所述模擬試驗時推薦要在所述規劃問題狀態下執行的操作,
其中所述處理器還被編程以在所述模擬試驗中的至少一個模擬試驗中執行一個或多個步驟,所述步驟包括:
觀察模擬狀態下的上下文狀態信息;以及
響應于所觀察的上下文狀態信息而選擇所述模擬狀態下的可用操作。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國際商業機器公司,未經國際商業機器公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310009910.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:真菌固體發酵培養基
- 下一篇:一種鍍鋅無鉻彩色鈍化劑
- 同類專利
- 專利分類
G06Q 專門適用于行政、商業、金融、管理、監督或預測目的的數據處理系統或方法;其他類目不包含的專門適用于行政、商業、金融、管理、監督或預測目的的處理系統或方法
G06Q10-00 行政;管理
G06Q10-02 .預定,例如用于門票、服務或事件的
G06Q10-04 .預測或優化,例如線性規劃、“旅行商問題”或“下料問題”
G06Q10-06 .資源、工作流、人員或項目管理,例如組織、規劃、調度或分配時間、人員或機器資源;企業規劃;組織模型
G06Q10-08 .物流,例如倉儲、裝貨、配送或運輸;存貨或庫存管理,例如訂貨、采購或平衡訂單
G06Q10-10 .辦公自動化,例如電子郵件或群件的計算機輔助管理
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





