[發明專利]一種數據處理方法及裝置在審

申請號：	202010450209.3	申請日：	2020-05-25
公開（公告）號：	CN111767793A	公開（公告）日：	2020-10-13
發明（設計）人：	郭莉莉;楊琳;王旭陽;徐培來;柳楊	申請（專利權）人：	聯想（北京）有限公司
主分類號：	G06K9/00	分類號：	G06K9/00;G06K9/62;G10L15/02;G10L15/22;G10L15/24
代理公司：	北京樂知新創知識產權代理事務所(普通合伙) 11734	代理人：	江宇
地址：	100085 北京市海淀***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種數據處理方法裝置
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種數據處理方法，其特征在于，包括：

獲取原始圖像數據和原始語音數據；

分別對所述原始圖像數據和所述原始語音數據進行特征識別，得到對應于初始對象的初始特征圖像數據和初始特征語音數據；

對當前圖像數據進行面部跟蹤，并判斷當前對象的面部跟蹤結果是否與所述初始對象的初始特征圖像數據相匹配；

若當前對象的面部跟蹤結果與所述初始對象的初始特征圖像數據不匹配，則對所述當前對象進行語音跟蹤，并判斷所述當前對象的語音跟蹤結果是否與所述初始對象的初始特征語音數據相匹配；

若所述當前對象的語音跟蹤結果與所述初始對象的初始特征語音數據相匹配，則對所述當前對象的當前語音數據進行語音識別。

2.根據權利要求1所述的方法，其特征在于，所述方法還包括：

若當前對象的面部跟蹤結果與所述初始對象的初始特征圖像數據相匹配，則根據所述當前對象的面部跟蹤結果對所述當前對象進行單人模式或多人模式下的語音跟蹤。

3.根據權利要求2所述的方法，其特征在于，所述根據所述當前對象的面部跟蹤結果對所述當前對象進行單人模式或多人模式下的語音跟蹤包括：

若所述當前對象的面部跟蹤結果中僅存在與所述初始對象的初始特征圖像數據相匹配的一個對象數據時，則對所述當前對象的單人語音數據進行語音識別并存儲。

4.根據權利要求3所述的方法，其特征在于，所述根據所述當前對象的面部跟蹤結果對所述當前對象進行單人模式或多人模式下的語音跟蹤還包括：

若所述當前對象的面部跟蹤結果中存在與所述初始對象的初始特征圖像數據相匹配的多個對象數據時，則對所述當前對象的當前語音數據進行語音分離，得到每一個所述當前對象的對應分離后語音數據，并對所述分離后語音數據進行語音識別。

5.根據權利要求4所述的方法，其特征在于，所述對所述當前對象的當前語音數據進行語音分離包括：

根據所述初始特征語音數據和歷史單人語音數據對所述當前對象的當前語音數據進行語音分離。

6.根據權利要求5所述的方法，其特征在于，通過波束成形根據所述初始特征語音數據和歷史單人語音數據對所述當前對象的當前語音數據進行語音分離。

7.根據權利要求1-6中任一項所述的方法，其特征在于，在所述判斷當前對象的面部跟蹤結果是否與所述初始對象的初始特征圖像數據相匹配之前，所述方法還包括：

根據所述初始特征圖像數據和/或初始特征語音數據建立對象分類模型；

則所述判斷當前對象的面部跟蹤結果是否與所述初始對象的初始特征圖像數據相匹配包括：

根據所述對象分類模型判斷當前對象的面部跟蹤結果是否與所述初始對象的初始特征圖像數據相匹配；

所述判斷所述當前對象的語音跟蹤結果是否與所述初始對象的初始特征語音數據相匹配包括：

根據所述對象分類模型判斷所述當前對象的語音跟蹤結果是否與所述初始對象的初始特征語音數據相匹配。

8.根據權利要求1-6中任一項所述的方法，其特征在于，所述初始特征圖像數據至少包括對應于初始對象的初始唇動特征數據；

所述當前對象的面部跟蹤結果是否與所述初始對象的初始特征圖像數據相匹配包括：

判斷當前對象的面部跟蹤結果是否與所述初始對象的初始唇動特征數據相匹配。

9.根據權利要求1-6中任一項所述的方法，其特征在于，所述方法還包括：

若所述當前對象的語音跟蹤結果與所述初始對象的初始特征語音數據不匹配，則結束對所述當前語音數據的語音識別。

10.一種數據處理裝置，其特征在于，包括：

獲取模塊，用于獲取原始圖像數據和原始語音數據；

特征識別模塊，用于分別對所述原始圖像數據和所述原始語音數據進行特征識別，得到對應于初始對象的初始特征圖像數據和初始特征語音數據；

面部跟蹤模塊，用于對當前圖像數據進行面部跟蹤，并判斷當前對象的面部跟蹤結果是否與所述初始對象的初始特征圖像數據相匹配；

第一語音跟蹤模塊，用于若當前對象的面部跟蹤結果與所述初始對象的初始特征圖像數據不匹配，則對所述當前對象進行語音跟蹤，并判斷所述當前對象的語音跟蹤結果是否與所述初始對象的初始特征語音數據相匹配；

語音識別模塊，用于若所述當前對象的語音跟蹤結果與所述初始對象的初始特征語音數據相匹配，則對所述當前對象的當前語音數據進行語音識別。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于聯想（北京）有限公司，未經聯想（北京）有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202010450209.3/1.html，轉載請聲明來源鉆瓜專利網。

上一篇：一種自發光建筑裝飾預制構件及其生產方法
下一篇：一種磷酸鎂銨與純堿相結合的連續化生產工藝

同類專利

專利分類

G 物理

G06 計算；推算；計數
G06K 數據識別；數據表示；記錄載體；記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形，例如，指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正，例如，用重復掃描圖形的方法
G06K9-18 .應用具有附加代碼標記或含有代碼標記的打印字符的，例如，由不同形狀的各個筆畫組成的，而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預處理，即無須判定關于圖像的同一性而進行的圖像信息處理
G06K9-60 .圖像捕獲和多種預處理作用的組合

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】