[發明專利]課程標簽生成方法、裝置、設備及介質在審
| 申請號: | 202110050254.4 | 申請日: | 2021-01-14 |
| 公開(公告)號: | CN112364068A | 公開(公告)日: | 2021-02-12 |
| 發明(設計)人: | 楊德杰 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06F16/2457 | 分類號: | G06F16/2457;G06F16/215;G10L15/22;G06Q50/20;G06N3/04 |
| 代理公司: | 深圳市賽恩倍吉知識產權代理有限公司 44334 | 代理人: | 遲珊珊;劉麗華 |
| 地址: | 518000 廣東省深圳市福田區福*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 課程 標簽 生成 方法 裝置 設備 介質 | ||
1.一種課程標簽生成方法,其特征在于,所述課程標簽生成方法包括:
響應于課程標簽生成指令,根據所述課程標簽生成指令獲取待處理課程數據;
提取所述待處理課程數據中的語音作為待處理語音,并對所述待處理語音進行語音識別,得到第一文本數據;
從所述待處理課程數據中獲取幻燈片數據,提取所述幻燈片數據中的文本作為第二文本數據,及提取所述幻燈片數據中的圖片作為圖片數據;
整合所述第一文本數據及所述第二文本數據,得到初始文本數據;
利用LDA模型提取所述初始文本數據的關鍵詞構建第一關鍵詞集合;
基于LSTM-CNN-Attention算法翻譯所述圖片數據,得到第三文本數據;
基于BERT模型提取所述第三文本數據的關鍵詞構建第二關鍵詞集合;
計算所述第一關鍵詞集合與所述第二關鍵詞集合的交集作為第三關鍵詞集合;
對所述第三關鍵詞集合進行清洗及校正處理,得到所述待處理課程數據的目標標簽集。
2.如權利要求1所述的課程標簽生成方法,其特征在于,所述根據所述課程標簽生成指令獲取待處理課程數據包括:
解析所述課程標簽生成指令的方法體,得到所述課程標簽生成指令所攜帶的信息;
獲取預設標簽;
根據所述預設標簽構建正則表達式;
根據所述正則表達式在所述課程標簽生成指令所攜帶的信息中進行遍歷,并將遍歷到的數據確定為目標課程標識;
基于所述目標課程標識從配置數據庫中調取數據作為所述待處理課程數據。
3.如權利要求1所述的課程標簽生成方法,其特征在于,所述整合所述第一文本數據及所述第二文本數據,得到初始文本數據包括:
獲取所述第一文本數據及所述第二文本數據中的每個文本段;
將每個文本段分別輸入至Transformer模型,得到每個文本段的多個關聯段;
計算每個文本段的多個關聯段與對應文本段的第一相關度;
將所述第一相關度大于或者等于第一配置相關度的關聯段確定為對應文本段的擴展段;
將每個文本段的擴展段合并至對應的文本段;
整合合并后的每個文本段,得到所述初始文本數據。
4.如權利要求1所述的課程標簽生成方法,其特征在于,所述基于LSTM-CNN-Attention算法翻譯所述圖片數據,得到第三文本數據包括:
利用LSTM網絡提取所述圖片數據的時序特征;
將所述時序特征輸入至CNN-Attention網絡進行文字識別,得到所述第三文本數據。
5.如權利要求1所述的課程標簽生成方法,其特征在于,所述基于BERT模型提取所述第三文本數據的關鍵詞構建第二關鍵詞集合包括:
采用BERT算法,并基于通用文本庫進行預訓練,得到所述BERT模型;
將所述第三文本數據中的各個數據依次輸入至所述BERT模型,輸出每個詞的重要程度值;
對每個詞的重要程度值進行標準化處理,得到每個詞的重要程度標準值;
獲取所述重要程度標準值大于或者等于配置閾值的詞;
根據獲取的詞構建集合,得到所述第二關鍵詞集合。
6.如權利要求1所述的課程標簽生成方法,其特征在于,所述對所述第三關鍵詞集合進行清洗及校正處理,得到所述待處理課程數據的目標標簽集包括:
計算所述第三關鍵詞集合中每兩個關鍵詞間的第二相關度;
當檢測到有任意兩個關鍵詞間的第二相關度大于或者等于第二配置相關度時,從檢測到的兩個關鍵詞中刪除任意一個關鍵詞,得到中間集合;
調取目標詞集,利用所述中間集合中的每個關鍵詞在所述目標詞集中進行搜索,并從所述中間集合中刪除搜索到的關鍵詞,得到所述目標標簽集。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110050254.4/1.html,轉載請聲明來源鉆瓜專利網。





