[發明專利]關鍵詞提取方法、裝置、電子設備和存儲介質有效
| 申請號: | 202011297172.1 | 申請日: | 2020-11-17 |
| 公開(公告)號: | CN112650830B | 公開(公告)日: | 2021-11-26 |
| 發明(設計)人: | 鄭翔;楊晶生;陳可蓉;劉敬暉;宗博文 | 申請(專利權)人: | 北京字跳網絡技術有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/35;G06F40/216;G06F40/284;G10L15/183 |
| 代理公司: | 北京植德律師事務所 11780 | 代理人: | 唐華東 |
| 地址: | 100190 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 關鍵詞 提取 方法 裝置 電子設備 存儲 介質 | ||
1.一種關鍵詞提取方法,包括:
獲取待識別語音數據;
對所述待識別語音數據進行自動語音識別得到目標文本;
對所述目標文本對應的候選關鍵詞集合中各候選關鍵詞進行向量表示得到對應的向量;
對各所述候選關鍵詞對應的向量進行異常點檢測,得到異常點向量集合;
刪除所述候選關鍵詞集合中與各所述異常點向量對應的關鍵詞;
將所述候選關鍵詞集合確定為與所述目標文本對應的關鍵詞集合。
2.根據權利要求1所述的方法,其中,所述目標文本對應的候選關鍵詞通過如下方式生成:
對所述目標文本進行關鍵詞提取,得到對應的候選關鍵詞集合。
3.根據權利要求1或2所述的方法,其中,所述待識別語音數據為目標音視頻會議的音頻數據。
4.根據權利要求1或2所述的方法,其中,所述對所述目標文本進行關鍵詞提取,得到對應的候選關鍵詞集合,包括:
基于無監督關鍵詞提取方法對所述目標文本進行關鍵詞提取,得到對應的候選關鍵詞集合。
5.根據權利要求4所述的方法,其中,所述無監督關鍵詞提取方法為詞頻-逆文本頻率指數方法、Textrank方法、文檔主題生成模型中的任意一種。
6.根據權利要求1或2所述的方法,其中,所述對各所述候選關鍵詞對應的向量進行異常點檢測,得到異常點向量集合,包括:
利用局部異常因子算法、孤立森林算法或者支持向量機異常檢測法對各所述候選關鍵詞對應的向量進行異常點檢測,得到異常點向量集合。
7.根據權利要求1或2所述的方法,其中,所述對目標文本對應的候選關鍵詞集合中各候選關鍵詞進行向量表示得到對應的向量,包括:
分別將所述候選關鍵詞集合中各候選關鍵詞輸入詞向量化模型,得到對應的向量。
8.一種關鍵詞提取裝置,包括:
向量表示單元,被配置成獲取待識別語音數據;對所述待識別語音數據進行自動語音識別得到目標文本;以及對目標文本對應的候選關鍵詞集合中各候選關鍵詞進行向量表示得到對應的向量;
異常檢測單元,被配置成對各所述候選關鍵詞對應的向量進行異常點檢測,得到異常點向量集合;
刪除單元,被配置成刪除所述候選關鍵詞集合中與各所述異常點向量對應的關鍵詞;
確定單元,被配置成將所述候選關鍵詞集合確定為與所述目標文本對應的關鍵詞集合。
9.一種電子設備,包括:
一個或多個處理器;
存儲裝置,其上存儲有一個或多個程序,
當所述一個或多個程序被所述一個或多個處理器執行時,使得所述一個或多個處理器實現如權利要求1-7中任一所述的方法。
10.一種計算機可讀存儲介質,其上存儲有計算機程序,其中,所述計算機程序被一個或多個處理器執行時實現如權利要求1-7中任一所述的方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京字跳網絡技術有限公司,未經北京字跳網絡技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011297172.1/1.html,轉載請聲明來源鉆瓜專利網。





