[發明專利]一種用于視頻會議的會議紀要自動生成方法在審
| 申請號: | 202011077651.2 | 申請日: | 2020-10-10 |
| 公開(公告)號: | CN112165599A | 公開(公告)日: | 2021-01-01 |
| 發明(設計)人: | 劉玉強;張軍;吳偉 | 申請(專利權)人: | 廣州科天視暢信息科技有限公司 |
| 主分類號: | H04N7/15 | 分類號: | H04N7/15;G10L17/00;G10L17/14;G10L15/26 |
| 代理公司: | 廣州越華專利代理事務所(普通合伙) 44523 | 代理人: | 陳岑 |
| 地址: | 510000 廣東省廣州市中*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 用于 視頻會議 會議紀要 自動 生成 方法 | ||
1.一種用于視頻會議的會議紀要自動生成方法,其特征在于,該方法包括以下步驟:
步驟一、分割判斷
對視頻會議中混合的原始音頻進行分割并提取聲紋特征,對分割后的前后兩段音頻進行比較識別,判斷是否為同一個說話人,當不是同一個說話人時,標注出不同說話人的轉換點,并根據轉換點進行音頻切分編碼,生成音頻碎片段;
步驟二、聚類
對所有切分后的音頻碎片段,分別進行聚類,把屬于同一個說話人的音頻碎片段聚和在一起,并對聚類后的音頻數據進行標記;
步驟三、識別
對聚類后的音頻數據進行識別,并結合會議中的參會人員信息,確定標記的音頻數據對應的參會人員;
步驟四、聲文轉換
對聚類識別后的音頻數據進行聲文轉換,生成文本文件并保存。
2.按照權利要求1所述的一種用于視頻會議的會議紀要自動生成方法,其特征在于,步驟一中所述分割判斷的方法包括基于距離度量和基于模型搜索。
3.按照權利要求2所述的一種用于視頻會議的會議紀要自動生成方法,其特征在于,所述基于距離度量的具體過程包括:
步驟A1、使用滑動窗口機制,窗口長度固定,并以固定窗差向前移動;
步驟A2、計算窗口內特征向量以及均值和方差;
步驟A3、檢驗窗口內的特征向量是否服從高斯分配,當服從高斯分配時,沒有轉換點;當不服從高斯分配時,存在轉換點。
4.按照權利要求2所述的一種用于視頻會議的會議紀要自動生成方法,其特征在于,所述基于模型搜索的具體過程包括:
步驟B1、對分割后每段音頻進行模型訓練;
步驟B2、計算每段音頻對應模型的貝葉斯值;
步驟B3、比較前后兩段音頻的貝葉斯值,當差值不大于閾值時,沒有轉換點;當差值大于閾值時,存在轉換點。
5.按照權利要求1所述的一種用于視頻會議的會議紀要自動生成方法,其特征在于,步驟二中所述聚類的方法包括凝聚層次聚類算法AHC。
6.按照權利要求5所述的一種用于視頻會議的會議紀要自動生成方法,其特征在于,所述凝聚層次聚類算法AHC的具體過程包括:
步驟C1、初始化,每個樣本點為一個類,有N類,計算每兩個類之間的距離,并設定一個距離閾值;
步驟C2、將兩個類之間的距離最小值與距離閾值進行比較,當兩個類之間的距離最小值小于距離閾值時,執行步驟C3;當兩個類之間的距離最小值不小于距離閾值時,停止迭代;
步驟C3、把距離最小的那兩個類歸為一個類,類別數N-1;
步驟C4、計算N-1類中,每兩個類之間的距離,并返回步驟C2。
7.按照權利要求1所述的一種用于視頻會議的會議紀要自動生成方法,其特征在于,步驟三中所述識別的具體過程包括根據聚類確定的說話人數,再根據會議中參會人員信息中每個人音頻通道的相關音頻特征,將會議中的音頻通道音頻特征信息和聚類后信息進行特征比較和關聯,從而識別出講話人信息。
8.按照權利要求7所述的一種用于視頻會議的會議紀要自動生成方法,其特征在于,所述講話人信息包括講話人的姓名、地點和區域。
9.按照權利要求8所述的一種用于視頻會議的會議紀要自動生成方法,其特征在于,步驟四中所述文本文件包括每個說話人音頻數據轉換得到的單個文本文件和所有說話人識別轉換后的匯總文本文件。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州科天視暢信息科技有限公司,未經廣州科天視暢信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011077651.2/1.html,轉載請聲明來源鉆瓜專利網。





