[發明專利]一種基于磁諧振和DQN的MIMO中繼充電方法在審
| 申請號: | 202010958885.1 | 申請日: | 2020-09-14 |
| 公開(公告)號: | CN112290694A | 公開(公告)日: | 2021-01-29 |
| 發明(設計)人: | 周顥;李向陽;周王球;宋年卉 | 申請(專利權)人: | 德清阿爾法創新研究院 |
| 主分類號: | H02J50/12 | 分類號: | H02J50/12;H02J50/50;H02J50/40;H02J7/00;H02J7/02 |
| 代理公司: | 杭州九洲專利事務所有限公司 33101 | 代理人: | 陳琦;陳繼亮 |
| 地址: | 313200 浙江*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 諧振 dqn mimo 中繼 充電 方法 | ||
1.一種基于磁諧振和DQN的MIMO中繼充電方法,其特征在于所述該方法由4個電路組成,分別為TX circuit發射端電路、Relay circuit中繼端電路、RX circuit接收端電路、TX-relay controller發射端-中繼端的控制電路,所述TX circuit發射端電路、Relaycircuit中繼端電路、RX circuit接收端電路之間均由TX-relay controller發射端-中繼端的控制電路控制,其中電流公式為通過應用基爾霍夫電路法,我們得出以下電流方程(1),對于每一個被動線圈α,α可以是任何RX,或任何處于閉合狀態的Relay。
電壓公式:可以得出電壓方程(2),式中的α可以是任何TX,RX,或任何閉合狀態的Relay。τα對于發射端為1,對于中繼端和接收端為0。
矩陣形式:為了更容易的表示,我們將上面(1)(2)寫成矩陣形式(3),
通過簡單的變換,我們可以得到式(4)
所述通過控制發射端電流和中繼端開關狀態,使接收端在給定能量預算下的接收能量最大化。因此,該公式表述為:
約束為
由于解空間十分巨大,在有6*6的relay的情況下,遍歷算法將不能在可行時間內得到最優解,我們采用分層的方法來解決這一問題;在頂層,我們只控制中繼的開閉狀態,在底層,我們只控制發射端的電流,如式(6)和(7)所示。
2.根據權利要求1所述的基于磁諧振和DQN的MIMO中繼充電方法,其特征在于所述底層的算法中,擴展了(4)中的算法,使用拉格朗日乘數法,通過符號μ作為約束(C5a)的乘數,(7)是尋求以下函數的駐點。
我們可以通過將兩個偏導數和設為0獲得駐點的信息,特殊地,我們根據(4)式獲得下述方程。
得到了關于底層調度問題(7)的最優結果的定理。
式中,其中maxeig為矩陣對應于其最大實特征值的單位特征向量。γ為正則化標量,確保系統總功率滿足預算約束(C5a)。
得到式(10)中的矩陣X1和X2,
估算D:由式(4)可知,D可以看作是由到的變換矩陣。幸運的是,我們可以測量TX和Relay上的電流,即,和然后,通過應用TX電流(實際上是通過TX電壓調控)并測量產生的中繼端電流,我們可以估計出它們之間的系數。由于是長度為N的向量,在進行矩陣反演之前需要重復測量N次,其中N為TXs的個數。
更正式地說,如果應用N組不同的TX電流,測量相應的Relay電流,可以由下面的公式反演出矩陣D。
估算X2:由式(4)消去可得:
我們注意到式(12)中只有兩個未知系數,即H和ZR。然后,我們可以使用與估計D相同的數據與過程來估計:
由于接收端線圈較小,且距離比較遠,故接收端RX之間的互感可以忽略不計。因此,我們認為RR與ZR近似相等。再結合估算出來的矩陣D,我們便可以估算出矩陣X2。
時間消耗:時間上的消耗主要包括兩部分,即測量和計算。計算過程主要由一個簡單的特征向量分解過程組成,與測量過程相比,其耗時可忽略不計。
在RX無關估計中,需要對TX電壓進行N次非線性變換,并測量相應的和因此,測量時間取決于實際系統中最高的TX電壓變化速率。在我們的模型中,理論上可以實現超過1kHz的電壓變化率。對于具有4個發射端TX的典型應用場景,我們可以在5ms內完成測量操作。
3.根據權利要求1所述的基于磁諧振和DQN的MIMO中繼充電方法,其特征在于所述頂層采用強化學習DQN,深度Q網絡的方法,該方法基于DQN的能量路徑路由方案,DQN的運行模式和原理可簡述為:首先環境會給出一個觀察(observation),智能體根據值函數網絡得到關于這個observation的所有Q(s,a),然后利用∈-greedy選擇action并做出決策,環境接收到此action后會給出一個獎勵Reward及下一個observation。這是一個step,此時我們根據Reward去更新值函數網絡的參數,接著進入下一個step,如此循環下去,直到我們訓練出了一個好的值函數網絡。
將整個MRC-WPT系統作為DQN算法的環境,值網絡和目標網絡是DQN計算和評價最優值的核心部分,我們使用θ,來表達每個網絡的權重,在第k輪中,設觀察并將之作為DQN的輸入,將DQN的a(k)的輸出作為中繼端的開斷動作,從底層問題中獲得最優的功率轉移效率r(k)作為獎勵,D(k)和是第k輪低層問題的中間變量,其中包含了中繼狀態的關鍵信息。同時,我們采用了時間戳經驗池的方式,存儲短期內、系統訪問過的中繼閉合狀態以及對應的返回值信息,避免了過于頻繁地訪問系統底層。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于德清阿爾法創新研究院,未經德清阿爾法創新研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010958885.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種遇氣膨脹橡膠材料及其制備方法
- 下一篇:一種強化鉬合金及其制備方法





