[發明專利]一種基于會議記錄生成會議摘要的方法、裝置及存儲介質有效
| 申請號: | 202110045581.0 | 申請日: | 2021-01-12 |
| 公開(公告)號: | CN112765344B | 公開(公告)日: | 2022-07-08 |
| 發明(設計)人: | 葉東;孫兆偉;高祥博;李暉;趙翰墨;仇均易 | 申請(專利權)人: | 哈爾濱工業大學 |
| 主分類號: | G06F16/34 | 分類號: | G06F16/34;G06F16/35;G06F40/211;G06F40/216;G06F40/30;G06K9/62 |
| 代理公司: | 西安維英格知識產權代理事務所(普通合伙) 61253 | 代理人: | 歸瑩;李斌棟 |
| 地址: | 150006 黑龍*** | 國省代碼: | 黑龍江;23 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 會議記錄 生成 會議 摘要 方法 裝置 存儲 介質 | ||
1.一種基于會議記錄生成會議摘要的方法,其特征在于,所述方法包括:
按照設定的聚類策略將會議記錄語料中的句子劃分為至少一個子話題集合;
針對每個子話題集合,采用設定的多語句壓縮方案生成與所述每個子話題集合對應的摘要語句;其中,所述針對每個子話題集合,采用設定的多語句壓縮方案生成與所述每個子話題集合對應的摘要語句,包括:
以每個子話題集合中的句子所包括的詞語為節點構建每個子話題集合對應的詞圖;
在所述詞圖中為任意兩個節點之間的邊分配所對應的權值;其中,所述在所述詞圖中為任意兩個節點之間的邊分配所對應的權值,包括:
在所述詞圖中按照節點M和節點N之間的聯系程度基于下式為節點M和節點N之間的邊分配所對應的權值:
其中,F(M)表示節點M的出現頻率,F(N)表示節點N的出現頻率,F(a,MN)表示節點M和節點N的共現頻率;
或者,在所述詞圖中按照節點M和節點N之間聯系的緊密程度基于下式為節點M和節點N之間的邊分配所對應的權值:
其中,R表示節點M和節點N之間的路徑,dis(R,M,N)表示節點M和節點N之間的路徑長度,graph表示所述詞圖;
或者,在所述詞圖中基于下式為節點M和節點N之間的邊分配所對應的權值:
或者,在所述詞圖中基于下式為節點M和節點N之間的邊分配所對應的權值:
其中,d(M,N)表示節點M和節點N在嵌入空間的歐幾里得距離;
基于所述詞圖中各邊對應的權值從所述詞圖中選取設定數目的最短路徑以形成候選摘要語句;
從所述候選摘要語句中按照設定的選取規則選取所述詞圖對應的子話題集合所對應的最優摘要語句;
根據所述摘要語句形成的摘要集生成所述會議記錄對應的會議摘要。
2.根據權利要求1所述的方法,其特征在于,所述按照設定的聚類策略將會議記錄語料中的句子劃分為至少一個子話題集合,包括:
將所述會議記錄語料按照句子為切割單位進行切割,獲得每個句子中所包括的各個詞語;
計算所述每個句子中所包括的各個詞語對應的詞頻-逆文本頻率TF-IDF值;
根據所述每個句子中所包括的各個詞語對應的詞頻-逆文本頻率TF-IDF值將所述會議記錄語料映射至向量空間以形成原始詞-句矩陣;
將所述原始詞-句矩陣通過潛在語義分析LSA進行降維,獲得降維后的詞-句矩陣;
采用所述降維后的詞-句矩陣以及設定的聚類算法按語義進行聚類,獲得至少一個子話題集合;其中,每個子話題集合中包括多個句子且每個子話題集合可以被一個摘要語句所概括。
3.根據權利要求1所述的方法,其特征在于,所述以每個子話題集合中的句子所包括的詞語為節點構建每個子話題集合對應的詞圖,包括:
從每個子話題集合中任意選取一個句子;
根據被選取句子中的詞語順序將所述被選取句子中的詞語所對應的節點按照設定的添加規則添加在開始節點為首節點且結束節點為末節點的單鏈中以創建每個子話題集合對應的初始詞圖;其中,所述被選取句子中的兩個詞語之間的相鄰關系設置為所述兩個詞語對應兩個中間節點之間的邊;
對于所述每個子話題集合中除所述被選取句子之外的其他句子,根據所述其他句子中的詞語順序將所述其他句子中的詞語所對應的節點按照所述添加規則添加在所述初始詞圖中以構建所述每個子話題集合對應的詞圖;
其中,所述添加規則包括:
同一句子中的任意兩個詞不被映射到同一節點;
相應于待添加詞語為非停用詞,若所述詞圖中存在所述待添加詞語對應的一個匹配節點,則將所述待添加詞語映射至所述匹配節點;若所述詞圖中存在所述待添加詞語對應的多個匹配節點,則將所述待添加詞語映射至與所述待添加詞語具有最大上下文重復次數的匹配節點,當所述詞圖中不存在任何存在上下文重復的匹配節點,則將所述待添加詞語映射至被映射次數最多的匹配節點;若所述詞圖中不存在所述待添加詞語的匹配節點,則在所述詞圖中新建所述待添加詞語對應的節點;
相應于所述待添加詞語為停用詞,若所述待添加詞語在所述詞圖中存在匹配節點且所述待添加詞語的后續詞與所述匹配節點的后續節點至少有一個以上的連續重疊,則將所述待添加詞語映射到所述匹配節點;否則,在所述詞圖中新建所述待添加詞語對應的節點。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱工業大學,未經哈爾濱工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110045581.0/1.html,轉載請聲明來源鉆瓜專利網。





