[發明專利]一種基于人工智能的手指點讀文字識別方法及翻譯方法在審
| 申請號: | 201811205785.0 | 申請日: | 2018-10-16 |
| 公開(公告)號: | CN109325464A | 公開(公告)日: | 2019-02-12 |
| 發明(設計)人: | 張哲 | 申請(專利權)人: | 上海翎騰智能科技有限公司 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/20;G06K9/32;G06N3/04;G06F17/28 |
| 代理公司: | 上海漢聲知識產權代理有限公司 31236 | 代理人: | 胡晶 |
| 地址: | 201203 上海市浦東新區中國*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 神經網絡 圖像 人工智能 截取 用戶手指位置 方框區域 文字識別 手指位置信息 翻譯 采集裝置 尺寸信息 檢測區域 角度識別 實時采集 手指點擊 輸出檢測 輸出圖像 文字內容 文字區域 構建 獲知 輸出 中文 | ||
1.一種基于人工智能的手指點讀文字識別方法,其特征在于,包括以下步驟:
(1)分別構建并訓練手指定位神經網絡、文本角度神經網絡、文本檢測神經網絡和OCR識別神經網絡;
(2)采集裝置實時采集預檢測區域的當前圖像,將所述圖像連續輸入預先訓練的手指定位神經網絡,獲知手指點擊狀態下的手指位置信息,并且在該過程中所述當前圖像壓縮至尋找手指的預設低像素分辨率的特征圖像;
(3)以用戶手指位置為中心,截取一個預先設定大小的方框區域圖像,輸入所述角度識別神經網絡,輸出圖像區域中文本的旋轉角度;
(4)若旋轉角度不為0時,以用戶手指位置為中心,旋轉所述旋轉角度截取方框區域圖像,否則,直接截取方框區域圖像,輸入所述文本檢測神經網絡,輸出檢測到的文字區域的位置信息和尺寸信息;
(5)通過所述文字區域的位置信息和尺寸信息截取對應的圖像,輸入所述OCR識別神經網絡,輸出已識別的文字內容。
2.如權利要求1所述的方法,其特征在于,步驟(2)進一步包括:
采集裝置實時采集預檢測區域的高清晰度的當前圖像;
將所述圖像連續輸入預先訓練的手指定位神經網絡,輸出與輸入圖像尺寸一致的特征圖像信息,所述輸出圖像信息包括預判定為手指的特征圖像及該圖像所在的位置信息;
通過對若干連接幀圖像進行手指定位神經網絡的運算,分別獲知對應其預判定為手指的特征圖像所在位置信息,若所述位置信息為停止移動狀態,則認定所述手指為點擊狀態,得到對應的特征圖像所在位置信息。
3.如權利要求1或2所述的方法,其特征在于,步驟(4)進一步包括:
將截取的方框區域圖像輸入預先訓練完成的文字檢測神經網絡,結果輸出檢測到文字的區域和置信度;
篩選輸出的文本區域,保留置信度最高的文本區域,當置信度大于預先設定值時,系統設定手指指向的文字有效,輸出檢測到的文字區域起點像素的位置信息及對應的尺寸信息。
4.如權利要求1或2所述的方法,其特征在于,步驟(1)中構建并訓練手指定位神經網絡進一步包括:
手指定位神經網絡由5層卷積神經網絡和3層反卷積神經網絡組成,網絡輸出是一個和輸入圖像尺寸一致的特征圖像,訓練時目標特征圖像是以手指指尖為中心的二維正態分布X~N(u,d),其中指尖處取值最大為1,往邊緣擴散逐漸減小到0,神經網絡的損失函數是目標特征圖像和推理特征圖像的L1誤差,優化算法采用AdamSGD,卷積編碼器的輸出為反卷積解碼器的輸入;
所述網絡輸入圖像是160x160x3,第一卷積層的這一層參數,通道數為16,卷積核為7x7,步長為2,輸出特征圖像為80x80x16;所述第二卷積層的這一層參數,通道數為16,卷積核為5x5,步長為2,輸出特征圖像為40x40x16;所述第三卷積層的這一層參數為,通道數為32,卷積核為3x3,步長為2,輸出特征圖像為20x20x32;所述第四卷積層的這一層參數,通道數為32,卷積核為3x3,步長為2,輸出特征圖像為10x10x32;所述第五卷積層的這一層參數,通道數為32,卷積核為3x3,步長為1,輸出特征圖像為5x5x32;第一反卷積層的這一層參數,通道數為64,卷積核為4x4,步長為2,輸出特征圖像為10x10x64;第二反卷積層的這一層參數,卷積核為4,步長為2,通道數為64,輸出特征圖像為20x20x64;第三反卷積層的這一層參數,通道數為64,卷積核為16,步長為8,輸出特征圖像為160x160x64;最后一層卷積層參數,通道數為1,卷積核為3,步長為1,輸出特征圖像為160x160x1。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海翎騰智能科技有限公司,未經上海翎騰智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811205785.0/1.html,轉載請聲明來源鉆瓜專利網。
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設備、圖像形成系統和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





