[發明專利]圖像處理裝置和方法在審

申請號：	201710913272.4	申請日：	2017-09-29
公開（公告）號：	CN109584864A	公開（公告）日：	2019-04-05
發明（設計）人：	不公告發明人	申請（專利權）人：	上海寒武紀信息科技有限公司
主分類號：	G10L15/22	分類號：	G10L15/22;G10L15/26;G06K9/62
代理公司：	廣州三環專利商標代理有限公司 44202	代理人：	郝傳鑫;熊永強
地址：	200120 上海市浦***	國省代碼：	上海;31
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	目標區域圖像處理指令圖像處理裝置目標圖像處理待處理圖像圖像處理器語音采集器指令轉換器處理區域處理軟件目標語音輸入語音圖像處理學習圖像用戶體驗語音信號指令轉換采集圖像轉換
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種圖像處理裝置，其特征在于，包括：

語音采集器，用于采集用戶輸入的語音信號；

指令轉換器，用于根據目標語音指令轉換模型將所述語音信號轉換成圖像處理指令和目標區域，所述目標區域為待處理圖像的處理區域；

圖像處理器，用于根據所述圖像處理指令和目標圖像處理模型對所述標區域進行處理。

2.根據權利要求1所述的圖像處理裝置，其特征在于，所述指令轉換器包括：

第一語音識別器，用于將語音信號通過所述語音識別技術轉換成文本信息；

語音文本轉換器，用于將文本信息通過自然語言處理技術和所述目標語音指令轉換模型轉換成所述圖像處理指令；

第一圖像識別器，用于根據所述圖像處理指令中的語義區域的粒度和圖像識別技術對所述待處理圖像進行區域劃分，獲取所述目標區域。

3.根據權利要求1所述的圖像處理裝置，其特征在于，所述指令轉換器包括：

第二語音識別器，用于將所述語音信號通過所述語音識別技術、語義理解技術和所述目標語音指令轉換模型轉換成所述圖像處理指令；

第二圖像識別器，用于根據所述圖像處理指令中的語義區域的粒度和圖像識別技術對所述待處理圖像進行區域劃分，獲取所述目標區域。

4.根據權利要求1-3任一項所述的圖像處理裝置，其特征在于，所述圖像處理裝置還包括：

存儲器，用于存儲所述文本信息或者所述圖像處理指令或者所述目標區域。

5.根據權利要求4所述的圖像處理裝置，其特征在于，所述圖像處理器包括：

取指令模塊，用于在預設時間窗口內從所述存儲器中獲取M條圖像處理指令；

處理模塊，用于根據所述M條圖像處理指令和所述目標圖像處理模型對所述目標區域進行處理。

6.根據權利要求5所述的圖像處理裝置，其特征在于，所述處理模塊用于：

刪除所述M條圖像處理指令中功能相同的圖像處理指令，得到N條圖像處理指令，所述M為大于1的整數，所述N為小于所述M的整數；

根據所述N條圖像處理指令和所述目標圖像處理模型對所述目標區域進行處理。

7.根據權利要求1的圖像處理裝置，其特征在于，所述指令轉換器用于：

對語音指令轉換模型進行自適應訓練，以得到所述目標語音指令轉換模型。

8.根據權利要求7所述的圖像處理裝置，其特征在于，所述指令轉換器對所述語音指令轉換模型進行自適應訓練是離線進行的或者是在線進行的。

9.根據權利要求7或8所述的圖像處理裝置，其特征在于，所述指令轉換器對所述語音指令轉換模型進行自適應訓練是有監督的或者是無監督的。

10.根據權利要求7所述的圖像處理裝置，其特征在于，所述指令轉換器還用于：

根據所述語音指令轉換模型將所述語音信號換成預測指令；

確定所述預測指令與其對應的指令集合的相關系數；

根據所述預測指令與其對應的指令集合的相關系數優化所述語音指令轉換模型，以得到所述目標語音指令轉換模型。

11.根據權利要求1所述的圖像處理裝置，其特征在于，所述圖像處理裝置還包括：

訓練器，用于根據所述語音指令轉換模型將所述語音信號換成預測指令；確定所述預測指令與其對應的指令集合的相關系數；根據所述預測指令與其對應的指令集合的相關系數優化所述語音指令轉換模型，以得到所述目標語音指令轉換模型。

12.根據權利要求1所述的圖像處理裝置，其特征在于，所述圖像處理器用于：

對圖像處理模型進行自適應訓練，以得到所述目標圖像處理模型。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于上海寒武紀信息科技有限公司，未經上海寒武紀信息科技有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201710913272.4/1.html，轉載請聲明來源鉆瓜專利網。

上一篇：一種汽車導航語音交互系統
下一篇：一種應用程序控制方法、裝置、可讀存儲介質及終端設備

同類專利

專利分類

G 物理

G10 樂器；聲學
G10L 語音分析或合成；語音識別；音頻分析或處理
G10L15-00 語音識別
G10L15-02 .語音識別的特征提取；識別單位的選擇
G10L15-04 .分段或字極限檢測
G10L15-06 .創建基準模板；訓練語音識別系統，例如對說話者聲音特征的適應
G10L15-08 .語音分類或檢索
G10L15-20 .專門適用于不利環境

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】