[發明專利]視頻說話人的識別方法、裝置、計算機設備及存儲介質在審
| 申請號: | 202010423192.2 | 申請日: | 2020-05-18 |
| 公開(公告)號: | CN111785279A | 公開(公告)日: | 2020-10-16 |
| 發明(設計)人: | 周勇 | 申請(專利權)人: | 北京奇藝世紀科技有限公司 |
| 主分類號: | G10L17/00 | 分類號: | G10L17/00;G10L17/02;G06K9/00 |
| 代理公司: | 北京華夏泰和知識產權代理有限公司 11662 | 代理人: | 盧萬騰 |
| 地址: | 100080 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 視頻 說話 識別 方法 裝置 計算機 設備 存儲 介質 | ||
1.一種視頻說話人的識別方法,其特征在于,包括:
確定視頻中的目標人物,以及所述目標人物的身份信息;
根據所述身份信息,按照時序信息從所述視頻中提取包含有所述目標人物的一組人臉圖片;
從一組所述人臉圖片中提取包含有所述目標人物嘴部的嘴部圖片集;
根據所述嘴部圖片集,確定包含有所述目標人物存在說話動作的多個第一語音片段;
對多個所述第一語音片段進行人聲檢測處理,得到所述目標人物對應的多個第一目標語音片段。
2.根據權利要求1所述的方法,其特征在于,所述確定視頻中的目標人物,以及所述目標人物的身份信息,包括:
采集視頻中出現的多個人臉圖像;
提取多個所述人臉圖像中對應的人臉特征;
對多個所述人臉特征與數據庫中存儲的目標人臉特征進行匹配,將所述人臉特征與目標人臉特征的相似度超過第一閾值的人臉圖像中的人物作為目標人物,以及根據所述目標人臉特征輸出所述目標人物的身份信息。
3.根據權利要求2所述的方法,其特征在于,所述根據所述身份信息,按照時序信息從所述視頻中提取包含有所述目標人物的一組人臉圖片,包括:
按照時序信息從所述視頻對應的幀圖像中出現的人物進行身份識別;
確定出現所述身份信息對應所述目標人物的多個目標幀圖像;
從多個所述目標幀圖像中提取包含有所述目標人物的一組人臉圖片。
4.根據權利要求3所述的方法,其特征在于,所述根據所述嘴部圖片集,確定包含有所述目標人物存在說話動作的多個第一語音片段,包括:
根據時序信息依次對比所述嘴部圖片集對應的嘴部特征關鍵點的相對位置變化,提取所述目標人物存在說話動作的多個嘴部圖片;
基于多個所述嘴部圖片,從所述視頻中提取多個所述嘴部圖片對應位置的多個第一語音片段;
所述對多個所述第一語音片段進行人聲檢測處理,得到所述目標人物對應的多個第一目標語音片段,包括:
基于人聲檢測模型,對多個所述第一語音片段進行人聲檢測,去除每個所述第一語音片段中的非人物聲音部分,得到多個存在人物聲音的第一目標語音片段。
5.基于權利要求4所述的方法,其特征在于,所述方法還包括:
對多個所述第一目標語音片段進行性別一致化處理,去除與所述目標人物性別不一致的部分語音片段。
6.根據權利要求1-5任一所述的方法,其特征在于,所述方法還包括:
基于人聲檢測從所述視頻中提取多個第二語音片段,所述第二語音片段為所述視頻中存在說話人聲音的非第一語音片段;
將多個所述第二語音片段輸入至聲紋模型中,得到多個所述第二語音片段對應的多個聲音特征向量;
基于多個所述聲音特征向量,確定與所述目標人物對應的至少一個第二目標語音片段。
7.根據權利要求6所述的方法,其特征在于,所述基于多個所述聲音特征向量,確定與所述目標人物對應的至少一個第二目標語音片段,包括:
對多個所述第二語音片段的聲音特征向量與所述第一目標語音片段的聲音特征向量進行匹配,將多個所述第二語音片段的聲音特征向量與所述第一目標語音片段的聲音特征向量的相似度超過第二閾值的多個第二語音片段作為所述目標人物的第二目標語音片段。
8.根據權利要求7所述的方法,其特征在于,所述方法還包括:
將所述第一目標語音片段和所述第二目標語音片段按照時序信息合并成所述目標人物的目標語音片段集合。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京奇藝世紀科技有限公司,未經北京奇藝世紀科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010423192.2/1.html,轉載請聲明來源鉆瓜專利網。





