[發明專利]一種基于動作語義向量的模型訓練方法和電子設備有效
| 申請號: | 201911337802.0 | 申請日: | 2019-12-23 |
| 公開(公告)號: | CN111124916B | 公開(公告)日: | 2023-04-07 |
| 發明(設計)人: | 許立鵬;王晨 | 申請(專利權)人: | 北京云聚智慧科技有限公司 |
| 主分類號: | G06F11/36 | 分類號: | G06F11/36 |
| 代理公司: | 北京國昊天誠知識產權代理有限公司 11315 | 代理人: | 許振新 |
| 地址: | 102425 北京市房山區閻富*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 動作 語義 向量 模型 訓練 方法 電子設備 | ||
1.一種基于動作語義向量的模型訓練方法,其特征在于,包括:
獲取處于第一狀態的測試界面的第一動作語義向量和可操作動作表達集合,所述第一動作語義向量表征用于觸發所述測試界面從第一狀態跳轉至目標狀態的操作,所述可操作動作表達集合中包括至少一項用于表征處于第一狀態的測試界面中可執行操作的可操作動作語義向量;
確定所述可操作動作表達集合中與所述第一動作語義向量相對應的目標動作語義向量;
對處于第一狀態的測試界面執行與所述目標動作語義向量相對應的目標操作,并將處于第一狀態的所述測試界面、被執行所述目標操作后的測試界面、獎勵值以及所述可操作動作表達集合中與所述第一動作語義向量相對應的目標動作語義向量作為一條短軌跡存儲至經驗池;
基于經驗池中的至少一條短軌跡,訓練Actor-Critic模型的Actor網絡和Critic網絡的網絡參數。
2.如權利要求1所述的方法,其特征在于,所述獲取處于第一狀態的測試界面的第一動作語義向量和可操作動作表達集合,包括:
根據預設采樣策略確定用于觸發所述測試界面從第一狀態跳轉至目標狀態的操作相對應的第一動作語義向量。
3.如權利要求1所述的方法,其特征在于,所述獲取處于第一狀態的測試界面的第一動作語義向量和可操作動作表達集合,包括:
獲取測試界面中的UI控件樹信息;
根據所述UI控件樹信息確定所述測試界面中可執行的操作;
基于所述測試界面中可執行的操作,通過預設自然語言理解模型確定與所述測試界面中可執行的操作相對應的可操作動作語義向量;
根據所述可操作動作語義向量確定可操作動作表達集合。
4.如權利要求3所述的方法,其特征在于,所述基于所述測試界面中可執行的操作,通過預設自然語言理解模型確定與所述測試界面中可執行的操作相對應的可操作動作語義向量,包括:
通過預訓練語言模型構建與測試界面中可執行操作相對應的詞向量;
根據各所述詞向量和相對應的特征權重值加權確定所述可執行操作相對應的可操作動作語義向量。
5.如權利要求4所述的方法,其特征在于,通過預訓練語言模型構建與測試界面中可執行操作相對應的詞向量,包括:
通過BERT語言模型構建與測試界面中可執行操作相對應的詞向量。
6.如權利要求1~5任一項所述的方法,其特征在于,所述確定所述可操作動作表達集合中與所述第一動作語義向量相對應的目標動作語義向量,包括:
基于預設距離度量標準確定所述第一動作語義向量與所述可操作動作表達集合中的至少一項可操作動作語義向量的距離;
將距離所述第一動作語義向量最短的可操作動作語義向量確定為目標動作語義向量。
7.如權利要求1~5任一項所述的方法,其特征在于,基于經驗池中的至少一條短軌跡,訓練Actor-Critic模型的Actor網絡和Critic網絡的網絡參數,包括:
基于所述短軌跡訓練模型的Critic網絡通過梯度下降法更新Critic網絡參數;
訓練模型的Actor網絡根據Critic網絡的梯度以及策略梯度更新Actor網絡參數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京云聚智慧科技有限公司,未經北京云聚智慧科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911337802.0/1.html,轉載請聲明來源鉆瓜專利網。





