[發(fā)明專利]課程標簽的生成方法、裝置、計算機設備及介質有效
| 申請?zhí)枺?/td> | 202110078984.5 | 申請日: | 2021-01-21 |
| 公開(公告)號: | CN112395421B | 公開(公告)日: | 2021-05-11 |
| 發(fā)明(設計)人: | 熊龍飛;張茜;張敏;黃敏婕;胡立波;余晉琳 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06K9/62;G06F40/216;G06F40/289 |
| 代理公司: | 深圳市世聯(lián)合知識產(chǎn)權代理有限公司 44385 | 代理人: | 汪琳琳 |
| 地址: | 518000 廣東省深圳市福田區(qū)福*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 課程 標簽 生成 方法 裝置 計算機 設備 介質 | ||
本發(fā)明涉及數(shù)據(jù)處理領域,公開了一種課程標簽的生成方法、裝置、計算機設備及介質,所述方法包括:采集目標課程的交互評論數(shù)據(jù),得到初始語句,對初始語句進行文本預處理,得到處理語句,采用預設的分詞方式,對所述處理語句進行分詞處理,得到目標分詞,基于TF?IDF算法,對目標分詞進行詞頻和逆文本頻率指數(shù)的計算,并通過詞頻和逆文本頻率指數(shù),確定目標分詞的評估值,根據(jù)目標分詞的評估值對目標分詞進行排序,并從前往后選取預設閾值的目標分詞,作為二級課程標簽,通過聚類的方式,將二級課程標簽歸類到預設的一級課程標簽下,得到目標課程的目標課程標簽體系。本發(fā)明有利于提高課程標簽體系生成的精準程度。
技術領域
本發(fā)明涉及數(shù)據(jù)處理領域,尤其涉及一種課程標簽的生成方法、裝置、計算機設備及介質。
背景技術
隨著信息化技術的飛速發(fā)展,越來越多企業(yè)會向用戶或員工提供一些學習課程,在一些知名的資源站點上,有眾多種類的課程以及大量的用戶群體,如何才能從供需的角度,更優(yōu)的把各個群體關注的課程推送到,就需要獲取海量課程的標簽。同時,精準的課程標簽還可以幫忙課程提供商對課程進行改進完善,目前除了課程上線時,人工標注的很粗粒度的標簽外,還急需一種能夠更高效、精準的、自動化獲取課程標簽的方法。
目前會有一些方案,是從課程相關的內(nèi)容中獲取一些文本信息,進而利用統(tǒng)計機器學習模型學習詞語切分的規(guī)律(稱為訓練),從而實現(xiàn)對未知文本的切分,來實現(xiàn)關鍵信息的提取,作為課程標簽。例如最大概率分詞方法和最大熵分詞方法等。在實際的應用中,基于統(tǒng)計的分詞系統(tǒng)都需要使用分詞詞典來進行字符串匹配分詞,這種方法具有局限性,在出現(xiàn)一些新詞時,往往不能準確識別,使得的生成標簽的準確性不夠。
發(fā)明內(nèi)容
本發(fā)明實施例提供一種課程標簽的生成方法、裝置、計算機設備和存儲介質,以提高課程標簽生成的精準程度。
為了解決上述技術問題,本申請實施例提供一種課程標簽的生成方法,包括:
采集目標課程的交互評論數(shù)據(jù),得到初始語句;
對所述初始語句進行文本預處理,得到處理語句;
采用預設的分詞方式,對所述處理語句進行分詞處理,得到目標分詞;
針對每個所述目標分詞,基于TF-IDF算法,對所述目標分詞分別進行詞頻的計算和逆文本頻率指數(shù)的計算,并通過得到的詞頻和得到的逆文本頻率指數(shù),確定所述目標分詞的評估值;
根據(jù)所述目標分詞的評估值對所述目標分詞進行排序,并從前往后選取預設閾值的目標分詞,作為二級課程標簽;
通過聚類的方式,將所述二級課程標簽歸類到預設的一級課程標簽下,得到所述目標課程的目標課程標簽體系。
可選地,所述采集目標課程的交互評論數(shù)據(jù),得到初始語句包括:
通過鏈接分析的方式,確定每個評論交互樓層的樓層權重;
根據(jù)每個所述樓層權重和預設權重閾值,確定目標樓層;
基于預設的排名策略,計算每個所述目標樓層的排名值,并根據(jù)所述排名值由大到小的順序,對所述目標樓層進行排序,得到目標樓層隊列;
基于所述目標樓層隊列,抓取所述目標樓層中的內(nèi)容,得到所述初始語句。
可選地,所述對所述初始語句進行文本預處理,得到處理語句包括:
對初始語句進行大小寫統(tǒng)一和繁體轉化,得到標準文本;
對所述標準文本進行無用詞提取和標注,得到標注后的處理語句。
可選地,獲取預設的訓練語料庫,并使用N-gram模型對所述預設的訓練語料庫進行分析,得到所述預設的訓練語料庫的詞序列數(shù)據(jù);
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經(jīng)平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110078984.5/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。





