[發明專利]角色分離方法、會議紀要的記錄方法、角色展示方法、裝置、電子設備及計算機存儲介質在審
| 申請號: | 202010596049.3 | 申請日: | 2020-06-28 |
| 公開(公告)號: | CN113849793A | 公開(公告)日: | 2021-12-28 |
| 發明(設計)人: | 鄭斯奇;王憲亮;索宏彬 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06F21/32 | 分類號: | G06F21/32 |
| 代理公司: | 北京合智同創知識產權代理有限公司 11545 | 代理人: | 李杰;舒道宏 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 角色 分離 方法 會議紀要 記錄 展示 裝置 電子設備 計算機 存儲 介質 | ||
1.一種角色分離方法,所述方法包括:
獲取語音采集設備采集的待分離的角色的語音數據幀所對應的聲源角度數據;
基于所述聲源角度數據,對所述待分離的角色進行身份識別,以獲得所述待分離的角色的第一身份識別結果;
基于所述待分離的角色的第一身份識別結果分離所述角色。
2.根據權利要求1所述的方法,其中,所述獲取語音采集設備采集的待分離的角色的語音數據幀所對應的聲源角度數據之后,所述方法還包括:
對所述待分離的角色的語音數據幀進行語音端點檢測,以獲得具有語音端點的語音數據幀;
基于所述待分離的角色的語音數據幀的能量頻譜,對所述具有語音端點的語音數據幀進行過濾平滑,以獲得過濾平滑后的語音數據幀;
基于所述過濾平滑后的語音數據幀,對所述聲源角度數據進行更新,以獲得更新后的聲源角度數據。
3.根據權利要求2所述的方法,其中,所述基于所述待分離的角色的語音數據幀的能量頻譜,對所述具有語音端點的語音數據幀進行過濾平滑,以獲得過濾平滑后的語音數據幀,包括:
通過中值濾波器,基于所述待分離的角色的語音數據幀的能量頻譜的譜平度,對所述具有語音端點的語音數據幀進行過濾平滑,以獲得所述過濾平滑后的語音數據幀。
4.根據權利要求1所述的方法,其中,所述基于所述聲源角度數據,對所述待分離的角色進行身份識別,以獲得所述待分離的角色的第一身份識別結果,包括:
對所述聲源角度數據進行順序聚類,以獲得所述聲源角度數據的順序聚類結果;
確定所述聲源角度數據的順序聚類結果對應的角色身份標識為所述待分離的角色的第一身份識別結果。
5.根據權利要求4所述的方法,其中,所述對所述聲源角度數據進行順序聚類,以獲得所述聲源角度數據的順序聚類結果,包括:
確定所述聲源角度數據與聲源角度順序聚類中心的距離;
基于所述聲源角度數據與所述聲源角度順序聚類中心的距離,確定所述聲源角度數據的順序聚類結果。
6.根據權利要求1所述的方法,其中,所述獲得所述待分離的角色的第一身份識別結果之后,所述方法還包括:
對所述待分離的角色在預設時間段內的語音數據幀進行聲紋識別,以獲得所述待分離的角色的第二身份識別結果;
若所述第一身份識別結果與所述第二身份識別結果不相同,則使用所述第二身份識別結果更正所述第一身份識別結果,以獲得所述待分離的角色的最終身份識別結果。
7.根據權利要求1所述的方法,其中,所述語音采集設備包括麥克風陣列,所述獲取語音采集設備采集的待分離的角色的語音數據幀所對應的聲源角度數據,包括:
獲取所述麥克風陣列中至少部分麥克風接收到的所述語音數據幀的協方差矩陣;
對所述協方差矩陣進行特征值分解,以得到多個特征值;
從所述多個特征值中選取第一數量個最大的特征值,并基于選取的特征值對應的特征向量構成語音信號子空間,其中,所述第一數量與聲源估計數量相當;
基于所述語音信號子空間,確定所述聲源角度數據。
8.根據權利要求6所述的方法,其中,所述獲得所述待分離的角色的最終身份識別結果之后,所述方法還包括:
獲取圖像采集裝置采集的所述待分離的角色的人臉圖像數據;
對所述人臉圖像數據進行人臉識別,以獲得所述待分離的角色的第三身份識別結果;
若所述第三身份識別結果與所述第二身份識別結果不相同,則使用所述第三身份識別結果更正所述第二身份識別結果,以獲得所述待分離的角色的最終身份識別結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010596049.3/1.html,轉載請聲明來源鉆瓜專利網。





