[發明專利]模型訓練方法、動作姿態生成方法、裝置、設備及介質有效
| 申請號: | 202110455733.4 | 申請日: | 2021-04-26 |
| 公開(公告)號: | CN113221681B | 公開(公告)日: | 2023-09-26 |
| 發明(設計)人: | 亢祖衡;彭俊清;王健宗 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06V10/774 | 分類號: | G06V10/774;G06V10/80;G06V40/20 |
| 代理公司: | 深圳市精英專利事務所 44242 | 代理人: | 李翔宇 |
| 地址: | 518000 廣東省深圳市福田區福*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 模型 訓練 方法 動作 姿態 生成 裝置 設備 介質 | ||
1.一種模型訓練方法,其特征在于,包括:
獲取訓練動作姿態生成模型所需的訓練數據集,并對所述訓練數據集中的訓練數據進行特征提取及第一次特征融合以生成融合特征向量;
提取所述訓練數據中預設時間段內的姿態動作向量作為姿態自回歸向量,并對所述姿態自回歸向量及所述融合特征向量進行第二次特征融合以生成控制輸入向量;
提取所述訓練數據中預設時刻的所述姿態動作向量作為姿態輸入向量,并將所述姿態輸入向量及所述控制輸入向量輸入流模型以得到輸出向量,其中,所述預設時刻為所述預設時間段中結束時刻的下一時刻;
基于所述輸出向量對所述流模型進行訓練以得到所述動作姿態生成模型;
其中,所述獲取訓練動作姿態生成模型所需的訓練數據集,并對所述訓練數據集中的訓練數據進行特征提取及第一次特征融合以生成融合特征向量,包括:
獲取訓練動作姿態生成模型所需的訓練數據集,并將所述訓練數據集轉換為多個預設時間長度的數據片段;
對每個所述數據片段中的訓練數據進行特征提取以得到語音特征向量、文本特征向量以及聲紋特征向量;
將所述語音特征向量、所述文本特征向量以及所述聲紋特征向量進行拼合操作以生成融合特征向量;
所述對每個所述數據片段中的訓練數據進行特征提取以得到語音特征向量、文本特征向量以及聲紋特征向量,包括:
對每個所述數據片段中的語音數據經過分幀加窗后提取梅爾頻譜,并將所述梅爾頻譜作為語音特征向量;
對每個所述數據片段中的文字數據使用Fasttext工具逐幀對文本的詞向量進行提取以得到文本特征向量;
通過TDNN模型對每個所述數據片段中的所述語音數據進行提取以得到聲紋特征向量。
2.根據權利要求1所述的方法,其特征在于,所述基于所述輸出向量對所述流模型進行訓練以得到所述動作姿態生成模型,包括:
計算所述輸出向量的負對數似然概率,并將所述負對數似然概率作為所述流模型的損失函數;
根據所述損失函數對所述流模型進行訓練以得到所述動作姿態生成模型。
3.一種動作姿態生成方法,其特征在于,包括:
獲取機器人生成動作姿態所對應的語音信息,并對所述語音信息進行特征提取及第一次特征融合以生成多個逐幀對齊的融合特征向量;
對每個所述融合特征向量與機器人初始姿態自回歸向量進行第二次特征融合以生成控制輸入向量,其中,所述機器人初始姿態自回歸向量為從預設初始姿態動作向量集中提取的預設時間段內的機器人姿態動作向量;
隨機生成一個呈高斯分布的潛在輸入向量并將所述潛在輸入向量及所述控制輸入向量輸入如權利要求1-2任一項所述的模型訓練方法得到的動作姿態生成模型以生成當前時間的機器人姿態動作向量;
更新所述預設初始姿態動作向量集中所述當前時間對應的機器人姿態動作向量,并將下一時間作為所述當前時間,返回執行對每個所述融合特征向量與機器人初始姿態自回歸向量進行第二次特征融合以生成控制輸入向量的步驟,直至所有所述融合特征向量與所述機器人初始姿態自回歸向量進行第二次特征融合為止;
將所述預設初始姿態動作向量集作為目標姿態動作向量集,根據所述目標姿態動作向量集生成與所述語音信息相對應的機器人動作姿態。
4.根據權利要求3所述的方法,其特征在于,所述將所述預設初始姿態動作向量集作為目標姿態動作向量集,根據所述目標姿態動作向量集生成與所述語音信息相對應的機器人動作姿態,包括:
將所述預設初始姿態動作向量集作為目標姿態動作向量集,并將所述目標姿態動作向量集中的所述動作姿態向量與所述預設的骨骼節點坐標向量一一映射以生成與所述語音信息相對應的機器人動作姿態。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110455733.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種預防壓力性損傷的敷料
- 下一篇:語音識別方法、裝置、設備和存儲介質





