[發(fā)明專利]基于人工智能的資源組合優(yōu)化方法、裝置及存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 201710198856.8 | 申請日: | 2017-03-29 |
| 公開(公告)號: | CN107169586A | 公開(公告)日: | 2017-09-15 |
| 發(fā)明(設(shè)計)人: | 吳澤衡;王凡;方曉敏;何徑舟;周古月;溫佩怡 | 申請(專利權(quán))人: | 北京百度網(wǎng)訊科技有限公司 |
| 主分類號: | G06Q10/04 | 分類號: | G06Q10/04;G06N99/00 |
| 代理公司: | 北京鴻德海業(yè)知識產(chǎn)權(quán)代理事務(wù)所(普通合伙)11412 | 代理人: | 袁媛 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 人工智能 資源 組合 優(yōu)化 方法 裝置 存儲 介質(zhì) | ||
1.一種基于人工智能的資源組合優(yōu)化方法,其特征在于,包括:
訓(xùn)練得到基于強化學(xué)習(xí)思想的策略模型;
當需要生成資源組合時,分別獲取各候選資源的資源評分;
根據(jù)各候選資源的資源評分以及所述策略模型,從各候選資源中選出M個候選資源組成所述資源組合,M為大于一的正整數(shù)。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,
訓(xùn)練得到所述策略模型包括:
在利用訓(xùn)練樣本對所述策略模型進行訓(xùn)練的過程中,當所述策略模型每生成一個資源組合時,則確定出所述資源組合的收益評分,并按照所述收益評分對所述策略模型的模型參數(shù)進行調(diào)整,直至達到收斂。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,
所述確定出所述資源組合的收益評分包括:
將所述資源組合輸入給預(yù)先訓(xùn)練得到的評估模型,得到所述評估模型給出的所述資源組合的收益評分。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,
所述分別獲取各候選資源的資源評分包括:
針對每個候選資源,分別將所述候選資源的指定特征輸入給預(yù)先訓(xùn)練得到的打分模型,得到所述打分模型給出的所述候選資源的資源評分。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,
所述根據(jù)各候選資源的資源評分以及所述策略模型,從各候選資源中選出M個候選資源組成所述資源組合包括:
將各候選資源的資源評分及各候選資源的指定特征輸入給所述策略模型,得到所述策略模型給出的所述資源組合。
6.根據(jù)權(quán)利要求3所述的方法,其特征在于,
該方法進一步包括:
從各候選資源中選出M個候選資源組成所述資源組合之后,將所述資源組合發(fā)送給所述評估模型,得到所述評估模型給出的所述資源組合的收益評分。
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,
該方法進一步包括:
得到所述評估模型給出的所述資源組合的預(yù)估指標;
所述預(yù)估指標包括:點擊次數(shù)預(yù)估。
8.一種基于人工智能的資源組合優(yōu)化裝置,其特征在于,包括:預(yù)處理單元以及優(yōu)化單元;
所述預(yù)處理單元,用于訓(xùn)練得到基于強化學(xué)習(xí)思想的策略模型;
所述優(yōu)化單元,用于當需要生成資源組合時,分別獲取各候選資源的資源評分,根據(jù)各候選資源的資源評分以及所述策略模型,從各候選資源中選出M個候選資源組成所述資源組合,M為大于一的正整數(shù)。
9.根據(jù)權(quán)利要求8所述的裝置,其特征在于,
所述預(yù)處理單元在利用訓(xùn)練樣本對所述策略模型進行訓(xùn)練的過程中,當所述策略模型每生成一個資源組合時,則確定出所述資源組合的收益評分,并按照所述收益評分對所述策略模型的模型參數(shù)進行調(diào)整,直至達到收斂。
10.根據(jù)權(quán)利要求9所述的裝置,其特征在于,
所述預(yù)處理單元進一步用于,
將所述資源組合輸入給預(yù)先訓(xùn)練得到的評估模型,得到所述評估模型給出的所述資源組合的收益評分。
11.根據(jù)權(quán)利要求8所述的裝置,其特征在于,
所述預(yù)處理單元進一步用于,訓(xùn)練得到打分模型;
所述優(yōu)化單元針對每個候選資源,分別將所述候選資源的指定特征輸入給所述打分模型,得到所述打分模型給出的所述候選資源的資源評分。
12.根據(jù)權(quán)利要求8所述的裝置,其特征在于,
所述優(yōu)化單元將各候選資源的資源評分及各候選資源的指定特征輸入給所述策略模型,得到所述策略模型給出的所述資源組合。
13.根據(jù)權(quán)利要求10所述的裝置,其特征在于,
所述優(yōu)化單元進一步用于,
從各候選資源中選出M個候選資源組成所述資源組合之后,將所述資源組合發(fā)送給所述評估模型,得到所述評估模型給出的所述資源組合的收益評分。
14.根據(jù)權(quán)利要求13所述的裝置,其特征在于,
所述優(yōu)化單元進一步用于,
得到所述評估模型給出的所述資源組合的預(yù)估指標;
所述預(yù)估指標包括:點擊次數(shù)預(yù)估。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京百度網(wǎng)訊科技有限公司,未經(jīng)北京百度網(wǎng)訊科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710198856.8/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06Q 專門適用于行政、商業(yè)、金融、管理、監(jiān)督或預(yù)測目的的數(shù)據(jù)處理系統(tǒng)或方法;其他類目不包含的專門適用于行政、商業(yè)、金融、管理、監(jiān)督或預(yù)測目的的處理系統(tǒng)或方法
G06Q10-00 行政;管理
G06Q10-02 .預(yù)定,例如用于門票、服務(wù)或事件的
G06Q10-04 .預(yù)測或優(yōu)化,例如線性規(guī)劃、“旅行商問題”或“下料問題”
G06Q10-06 .資源、工作流、人員或項目管理,例如組織、規(guī)劃、調(diào)度或分配時間、人員或機器資源;企業(yè)規(guī)劃;組織模型
G06Q10-08 .物流,例如倉儲、裝貨、配送或運輸;存貨或庫存管理,例如訂貨、采購或平衡訂單
G06Q10-10 .辦公自動化,例如電子郵件或群件的計算機輔助管理





