[發(fā)明專利]基于強化學習的高空拋物軌跡識別方法有效
| 申請?zhí)枺?/td> | 202110685692.8 | 申請日: | 2021-06-21 |
| 公開(公告)號: | CN113393495B | 公開(公告)日: | 2022-02-01 |
| 發(fā)明(設計)人: | 郭洪飛;馬向東;曾云輝;陳柄贊;何智慧;任亞平;張銳 | 申請(專利權)人: | 暨南大學 |
| 主分類號: | G06T7/246 | 分類號: | G06T7/246;G06T7/277;G06T5/00;G06T5/50;G06T3/00;G06V20/10;G06V10/774;G06V10/82;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 深圳新創(chuàng)友知識產(chǎn)權代理有限公司 44223 | 代理人: | 江耀純 |
| 地址: | 510632 廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 強化 學習 高空 軌跡 識別 方法 | ||
本發(fā)明公開了一種基于強化學習的高空拋物軌跡識別方法。所述方法包括:通過圖像傳感器采集被監(jiān)控窗戶區(qū)域的高空拋物軌跡圖像;對所述高空拋物軌跡圖像進行預處理得到預處理圖像信息;根據(jù)所述預處理圖像信息判斷所述圖像傳感器是否被遮擋;在判斷所述圖像傳感器未被遮擋時,將所述預處理圖像信息輸入至處理器,所述處理器獲取經(jīng)過強化學習后的預訓練目標模型,并通過所述預訓練目標模型對所述預處理圖像信息進行高空拋物識別得到高空拋物識別結果信息;所述處理器將高空拋物識別結果信息存儲至數(shù)據(jù)存儲單元和云服務器及儲存器中,以對所述預訓練目標模型進行訓練及更新。本發(fā)明通過強化學習模型對高空拋物軌跡進行識別,提高了識別準確率。
技術領域
本發(fā)明涉及人工智能技術領域,尤其涉及一種基于強化學習的高空拋物軌跡識別方法。
背景技術
隨著規(guī)模經(jīng)濟進一步發(fā)展,城市人口的聚集,人類的生產(chǎn)、生活環(huán)境充滿了各種不確定性與風險性,高空拋物被稱為“懸在城市上空的痛”,該行為一旦開始就不能被輕易控制與阻止,且呈迅速發(fā)展的態(tài)勢,一旦著手,達到既遂標準,就難以立刻被控制與阻止,因此會在極短的時間內迅速蔓延,給公共安全造成極大的損害。尤其是近幾年以來,各地關于高空拋物行為的民事以及刑事案件不斷增加,且各地報紙也在紛紛報道關于高空拋物傷人的事件,于是人們紛紛呼吁希望制定法律對高空拋物行為進行嚴格規(guī)制,以保證人們“頭頂?shù)陌踩薄W罡咴涸诖吮尘跋掳l(fā)布了《最高人民法院關于依法妥善審理高空拋物、墜物案件的意見》,即使并未造成實際損害后果,只要危及了社會公共安全,也按以危險方法危害公共安全罪定罪處罰。
對于傳統(tǒng)的強化學習,其典型問題為馬爾科夫決策過程(MDP)。馬爾科夫決策過程包含一組狀態(tài)S和動作A。狀態(tài)的轉換是通過概率P,獎勵R和一個折衷參數(shù)gamma決定的。概率P反映了轉換和狀態(tài)轉變的獎勵之間的關系,狀態(tài)和獎勵僅依賴上一時間步的狀態(tài)和動作。強化學習為Agent(一種軟硬件系統(tǒng))定義了環(huán)境,來實現(xiàn)某些動作以最大化獎勵。對Agent的優(yōu)化行為的基礎由Bellman(貝爾曼)方程定義,這是一種廣泛用于求解實際優(yōu)化問題的方法。當所有可到達的狀態(tài)處于可控并且能存儲在計算機RAM(隨機存取存儲器)中時,強化學習對于環(huán)境來說是足夠好用的。然而,當環(huán)境中的狀態(tài)數(shù)超過現(xiàn)代計算機容量時,標準的強化學習模式就不太有效了。而且,在真實環(huán)境中,智能體必須面對連續(xù)狀態(tài)、連續(xù)變量和連續(xù)控制(動作)的問題。所以,標準的、定義明確的強化學習Q表就被深度神經(jīng)網(wǎng)絡即Q網(wǎng)絡取代了,后者可以把環(huán)境狀態(tài)映射為智能體動作。網(wǎng)絡架構、網(wǎng)絡超參數(shù)的選擇以及學習都在訓練階段(Q網(wǎng)絡權重的學習)中完成。DQN(Deep Q Network,強化學習)允許智能體探索非結構化的環(huán)境并獲取知識,經(jīng)過時間積累,它們可以模仿人類的行為。所以在高空拋物軌跡識別系統(tǒng)中我們使用DQN算法來解決這個連續(xù)狀態(tài)(不離散)、連續(xù)變量和連續(xù)控制(動作)的問題。
目前,市面上已經(jīng)存在的高空拋物軌跡預測專利有:一種高空拋物檢測方法、設備及存儲介質(專利號:CN111931599A)和高空拋物雷達波視覺融合監(jiān)控預警系統(tǒng)(專利號:CN201922207460.2)。前者是通過基于SUV(標準吸收值)等的圖像處理算法來計算物體的運動狀態(tài)從而實現(xiàn)預測,后者是使用了雷達系統(tǒng)對高空拋物軌跡進行監(jiān)控。因此,市面上從智能預測算法的角度分析和預測高空拋物軌跡的思想較少。
發(fā)明內容
本發(fā)明的一個目的在于提出一種基于強化學習的高空拋物軌跡識別方法,以準確識別高空拋物軌跡。
為達到上述目的,本發(fā)明通過以下技術方案實現(xiàn):
一種基于強化學習的高空拋物軌跡識別方法,包括以下步驟:
S1,通過圖像傳感器采集被監(jiān)控窗戶區(qū)域的高空拋物軌跡圖像;
S2,對所述高空拋物軌跡圖像進行預處理得到預處理圖像信息;
S3,根據(jù)所述預處理圖像信息判斷所述圖像傳感器是否被遮擋;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于暨南大學,未經(jīng)暨南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110685692.8/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。





