[發明專利]一種基于語境翻譯的機器人模仿學習方法在審
| 申請號: | 201710927010.3 | 申請日: | 2017-10-09 |
| 公開(公告)號: | CN107622311A | 公開(公告)日: | 2018-01-23 |
| 發明(設計)人: | 夏春秋 | 申請(專利權)人: | 深圳市唯特視科技有限公司 |
| 主分類號: | G06N99/00 | 分類號: | G06N99/00 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 518057 廣東省深圳市高新技術產業園*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 語境 翻譯 機器人 模仿 學習方法 | ||
1.一種基于語境翻譯的機器人模仿學習方法,其特征在于,主要包括學習語境翻譯(一);用于特征追蹤的獎勵功能(二);加強學習算法的特征追蹤(三)。
2.基于權利要求書1所述的模擬觀察算法,其特征在于,它是基于學習可以將演示從一個語境(例如,第三人視點和人類演示者)轉換到另一語境(例如,第一人視點和機器人)的語境翻譯模型;通過訓練一個模型來執行這種轉換,從而獲得一個適合追蹤演示行為的特征。
3.基于權利要求書1所述的學習語境翻譯(一),其特征在于,由于每個演示Dk都是從一個未知的語境ωk生成的,所以學習者不能在自己的語境ωl中直接跟蹤這些演示;然而,由于有來自多個未知但不同背景的演示,所以可以在這些演示中學習一個語境翻譯模型;只假設在特定語境ωk中演示的第一幀可以用于隱含地提取關于語境ωk的信息。
4.基于權利要求書3所述的翻譯模型,其特征在于,翻譯模型是通過對演示和進行訓練的,其中,Dj來自未知語境ωi(源語境),Dj來自未知語境ωj(目標語境);該模型必須學習輸出Dj條件下的觀測值Di和目標語境ωj中的第一個觀測值因此,模型從目標環境中觀察單個結果,并且通過從源語境翻譯演示來預測在該語境中將來的觀察;一旦被訓練,這個模型可以提供任何演示Dk,將其轉化為學習者的語境ωl進行跟蹤。
5.基于權利要求書4所述的翻譯,其特征在于,通過學習整體翻譯函數使得其輸出對于所有t和每對訓練演示Di和Dj都緊密匹配也就是說,該模型將來自Di的觀察結果轉化為語境ωj,僅限于Dj中的第一個觀察
6.基于權利要求書3所述的模型的組件,其特征在于,該模型由四個組件組成:組件一為源觀測編碼器表示為z1;組件二為將觀測值編碼為源和目標特征的目標初始觀測編碼器表示為z2;組件三為轉換器z3=T(z1,z2),其將特征z1轉換為z2的語境的特征,表示為z3;組件四為將目標語境解碼的解碼器Dec(z3),解碼為
使用來表示從輸入觀察和語境圖像生成特征z3的特征提取器;編碼器Enc1和Enc2可以具有不同的權重或束縛,這取決于演示場景的多樣性;該模型在輸出端和端對端之間進行了一個平方誤差損失的監督。
7.基于權利要求書6所述的編碼器和解碼器,其特征在于,為了確保翻譯的特征z3形成與編碼圖像z1內部一致的表示,共同訓練翻譯模型編碼器Enc1和解碼器Dec作為自動編碼器,具有重建損耗并且同時使特征表示此自動編碼器,以將其與特征z3對齊,使用損失這使編碼器Enc1和解碼器Dec采用一致的特征表示,使得目標語境觀察被編碼成與被翻譯的特征z3相似的特征;整個模型的訓練目標由組合損失函數給出,其中,Di和Dj是從訓練集中隨機選擇的一對演示,而λ1和λ2是超參數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳市唯特視科技有限公司,未經深圳市唯特視科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710927010.3/1.html,轉載請聲明來源鉆瓜專利網。





