[發明專利]一種基于強化學習的多通道短消息分發方法和系統有效
| 申請號: | 202210947402.7 | 申請日: | 2022-08-09 |
| 公開(公告)號: | CN115038055B | 公開(公告)日: | 2022-10-21 |
| 發明(設計)人: | 陳文西;王鑫;張純磊;張承慧;張斌 | 申請(專利權)人: | 北京金樓世紀科技有限公司 |
| 主分類號: | H04W4/14 | 分類號: | H04W4/14;H04W28/02;H04W28/18;G06Q10/04;G06Q10/06;G06Q50/30;G06N3/04;G06N3/08;G06N7/00;H04W4/24 |
| 代理公司: | 北京格匯專利代理事務所(特殊普通合伙) 16088 | 代理人: | 張偉洋 |
| 地址: | 100088 北京市西城區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 強化 學習 通道 短消息 分發 方法 系統 | ||
1.一種基于強化學習的多通道短消息分發方法,用于云消息平臺,所述平臺包括多個運營商的多個可發送短消息的通道,其特征在于,所述方法包括如下步驟:
S100,根據馬爾科夫決策過程定義用于深度神經網絡模型的狀態、動作、獎勵和Q值函數,其中:
所述狀態由所述通道的剩余容量以及每個所述通道的短消息發送成本確定;
所述動作根據每個運營商的每個通道上分配的基于用戶和短消息類型的消息量確定;
所述獎勵根據所選擇的動作和相應的通道資源分配結果計算得到獎勵值;
所述Q值函數基于所述狀態和動作并經過所述模型訓練得到;
S200,對所述通道進行參數初始化;
S300,將短消息分發需求和當前時刻的狀態輸入至所述模型,由所述模型計算在當前時刻的狀態下各動作所對應的Q值,并作為Q值集合輸出;
S400,根據所述Q值集合確定目標動作,執行所述目標動作,然后更新所述通道的資源狀態并得到下一時刻的狀態和當前時刻的獎勵值;
S500,將所述當前時刻的狀態、所述下一時刻的狀態、所述目標動作和所述當前時刻的獎勵值作為當前時刻的一組四元組數據并存放在存儲空間中;
S600,進入下一時刻,將所述步驟S400得到的下一時刻的狀態作為所述當前時刻的狀態,并重復所述步驟S300至S500,直至所述Q值函數收斂;
所述步驟S100中,根據所選擇的動作得到相應的通道資源分配結果,
當通道資源分配成功時,則所述獎勵值為用戶付費收益并扣除短消息分發的通道成本和相應的短消息積壓量的函數反饋,
當通道資源分配不成功時,則所述獎勵值為預設負數值;
所述獎勵根據如下公式計算得到獎勵值:
式中,為所述獎勵,為用戶
為通道資源分配結果,當通道資源分配成功時,S=1,當通道資源分配不成功時,S=0。
2.如權利要求1所述的多通道短消息分發方法,其特征在于,所述步驟S400中,根據所述Q值集合確定目標動作,包括:
從所述Q值集合中選取數值最大的Q值作為最優Q值,將所述最優Q值所對應的動作作為所述目標動作。
3.如權利要求1所述的多通道短消息分發方法,其特征在于,所述步驟S400中,根據所述Q值集合確定目標動作,包括:
根據ε-貪婪策略,以ε概率從所述Q值集合中選取數值最大的Q值作為最優Q值,并將所述最優Q值所對應的動作作為所述目標動作,以1-ε概率隨機選擇動作并作為目標動作。
4.如權利要求1所述的多通道短消息分發方法,其特征在于,所述深度神經網絡包括M層卷積神經網絡和N層全連接網絡。
5.如權利要求1所述的多通道短消息分發方法,其特征在于,所述步驟S600中,按完成所述步驟S300至S500的預設次數從所述存儲空間中隨機提取若干組四元組數據作為訓練數據,并根據貝爾曼優化方程對所述模型進行訓練。
6.如權利要求1所述的多通道短消息分發方法,其特征在于,所述步驟S600中,所述Q值函數收斂為計算得到的Q值與預設目標值之間的誤差小于預設閾值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京金樓世紀科技有限公司,未經北京金樓世紀科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210947402.7/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:測試設備
- 下一篇:一種適用于云計算的采集識別流量的系統和方法





