[發明專利]基于自然語言描述的三維場景目標檢測建模及檢測方法有效
| 申請號: | 202110251422.6 | 申請日: | 2021-03-08 |
| 公開(公告)號: | CN113034592B | 公開(公告)日: | 2021-08-31 |
| 發明(設計)人: | 馮明濤;張亮;朱光明;宋娟;沈沛意 | 申請(專利權)人: | 西安電子科技大學 |
| 主分類號: | G06T7/73 | 分類號: | G06T7/73;G06K9/62;G06F40/289 |
| 代理公司: | 西安恒泰知識產權代理事務所 61216 | 代理人: | 王芳 |
| 地址: | 710071*** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 自然語言 描述 三維 場景 目標 檢測 建模 方法 | ||
1.基于自然語言描述的三維場景目標檢測建模方法,其特征在于,包括如下步驟:
步驟一:獲取自然語言描述集合和三維場景點云集合,所述的自然語言描述集合中每條自然語言描述包括名詞短語集和關系短語集,每條自然語言描述對應三維場景點云集合中的一個三維場景點云,根據每條自然語言描述其對應的三維場景點云進行候選框標注,獲得每個三維場景點云的真實目標候選框;
步驟二:根據圖網絡構建方法獲得語言先驗圖網絡和三維目標候選框視覺關系圖網絡;
步驟三:將自然語言描述集合和三維場景點云集合作為訓練集,將所有三維場景點云的真實目標候選框作為標簽集,訓練語言先驗圖網絡和三維目標候選框視覺關系圖網絡,將訓練好的語言先驗圖網絡和三維目標候選框視覺關系圖網絡作為基于自然語言描述的三維場景目標檢測模型;
所述的圖網絡構建方法,包括如下步驟:
步驟1:獲取自然語言描述,所述的自然語言描述包括名詞短語集和關系短語集,對名詞短語集和關系短集語進行編碼得到名詞短語特征集和關系短語特征集;以名詞短語為節點,以關系短語為邊,以名詞短語特征為節點特征并以關系短語特征為邊特征構建初始語言先驗圖網絡;
步驟2:采用注意力機制對初始語言先驗圖網絡中每個節點的臨近節點的節點特征和邊特征進行加權聚合,獲得語言先驗圖網絡;
步驟3:獲取三維場景點云,所述的三維場景點云與步驟1的自然語言描述相關,采用PointNet++提取三維場景點云的點云特征,根據三維場景點云的點云特征采用VoteNet生成三維場景點云的初始化候選框集合,所述的初始化候選框集合包括多個候選框;
步驟4:通過多層感知機運算提取步驟3得到的初始化候選框集合中每個候選框的目標特征,根據每個候選框的目標特征和步驟2得到的語言先驗圖網絡的每個節點特征計算每個候選框和每個名詞短語節點的偏移量;
步驟5:計算每個名詞短語和每個候選框的相似性匹配得分,將同一個名詞短語的相似性匹配得分降序排列,獲得同一個名詞短語的前K個相似性匹配得分所對應的候選框,并對同一個名詞短語的K個候選框分別依據步驟4得到的每個候選框和每個名詞短語節點的偏移量進行更新,將更新后的同一個名詞短語的K個候選框作為該名詞短語的候選框集,其中,K為正整數;
步驟6:獲取每個名詞短語的候選框集中存在關系短語的所有對候選框,提取存在關系短語的每對候選框的視覺特征和存在關系短語的每對候選框的最小聯合區域的幾何特征,將存在關系短語的每對候選框的視覺特征和幾何特征進行級聯得到存在關系短語的每對候選框的級聯關系特征;
以候選框為節點,以關系短語為邊,以候選框的目標特征為節點特征,以存在關系短語的每對候選框的級聯關系特征為邊特征,構建初始三維目標候選框視覺關系圖網絡;
步驟7:采用注意力機制對初始三維目標候選框視覺關系圖網絡中每個節點的臨近節點的節點特征和邊特征進行加權聚合,獲得三維目標候選框視覺關系圖網絡。
2.如權利要求1所述的基于自然語言描述的三維場景目標檢測建模方法,其特征在于,步驟三進行訓練時,每次迭代后對語言場景圖和三維目標候選框視覺關系圖進行圖匹配,并根據圖匹配結果計算損失函數并進行下次迭代,包括如下子步驟:
計算語言場景圖中的每個名詞短語節點和三維目標候選框視覺關系圖中的每個目標候選框節點的節點圖匹配得分,計算語言先驗圖中每條邊和三維目標視覺關系圖中每條邊的邊圖匹配得分;
獲取邊圖匹配得分值最高的三維目標視覺關系圖中邊作為目標候選框關系邊,選取該目標候選框關系邊連接的兩個目標候選框節點中節點圖匹配得分值最高的目標候選框作為本次迭代得到的最終目標候選框,根據目標候選框與真實目標候選框計算損失函數,更新模型參數并進行下次迭代。
3.如權利要求2所述的基于自然語言描述三維場景目標檢測的建模方法,其特征在于,所述的損失函數為:
其中為目標候選框裁剪中名詞短語與候選框相似匹配得分計算的損失,為目標候選框更新中候選框偏移量計算的損失,為圖匹配最終目標定位中邊的相似性得分計算的損失,為圖匹配的相似性得分計算的損失,Ldet為三維目標候選框初始化的損失,τ1,τ2,τ3,τ4為加權系數且取值范圍均為0-1。
4.基于自然語言描述的三維場景目標檢測方法,其特征在于,包括如下步驟:
步驟Ⅰ:獲取待檢測三維場景點云及待檢測三維場景點云的一條自然語言描述;
步驟Ⅱ:將待檢測三維場景點云及待檢測三維場景點云的一條自然語言描述輸入權利要求1-3中任一種基于自然語言描述的三維場景目標檢測的建模方法得到的基于自然語言描述的三維場景目標檢測模型中得到目標候選框。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西安電子科技大學,未經西安電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110251422.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:硅片硼擴散用可噴涂硼源及其應用
- 下一篇:充填下料裝置及方法





