[發明專利]文本標簽確定方法、裝置、終端及可讀存儲介質在審
| 申請號: | 202011065821.5 | 申請日: | 2020-09-30 |
| 公開(公告)號: | CN112131350A | 公開(公告)日: | 2020-12-25 |
| 發明(設計)人: | 劉剛 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/9535;G06F16/783;G06F40/30;G06F40/289 |
| 代理公司: | 北京三高永信知識產權代理有限責任公司 11138 | 代理人: | 徐立 |
| 地址: | 518057 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 標簽 確定 方法 裝置 終端 可讀 存儲 介質 | ||
本申請是關于一種文本標簽確定方法、裝置、終端及可讀存儲介質,屬于標簽挖掘領域。所述方法包括:對目標文本進行分詞處理,得到分詞集合,所述分詞集合中包括所述目標文本分詞得到的分詞詞匯,所述目標文本為待確定標簽的文本;根據所述分詞詞匯的上下文關系,確定所述目標文本的第一候選標簽;根據所述分詞詞匯在所述目標文本中的第一頻率參數,和所述分詞詞匯在文本集合中的第二頻率參數,確定所述目標文本的第二候選標簽;根據所述第一候選標簽和所述第二候選標簽確定所述目標文本的標簽。本申請解決了標簽確定過程中未考慮詞匯在上下文語義環境,導致的標簽確定的準確度不高的問題,提高了獲取標簽的準確度。
技術領域
本申請涉及標簽挖掘領域,特別涉及一種文本標簽確定方法、裝置、終端及可讀存儲介質。
背景技術
標簽被定義為能夠代表內容的最重要的關鍵詞,在信息流內容分發過程當中,無論是圖文還是視頻,標簽信息都非常重要,當內容有了標簽后,就可以按照不同標簽組織和展示內容,也可以根據標簽和用戶畫像進行匹配,實現更精準的內容推薦。
在相關技術中,文章內容的標簽提取方法包括基于TF-IDF統計特征來確定當前內容的標簽,該方法傾向于過濾文章中的常見詞語,保留重要詞語。
但該基于統計的方法未考慮文章中詞語與詞語之間、詞語與文檔之間的關系,所獲取到的標簽與內容表達的實際語義存在偏差,獲取的標簽準確度不高。
發明內容
本申請提供了一種文本標簽確定方法、裝置、終端及可讀存儲介質,能夠提高標簽確定的準確度。所述技術方案如下:
一方面,提供了一種文本標簽確定方法,所述方法包括:
對目標文本進行分詞處理,得到分詞集合,所述分詞集合中包括所述目標文本分詞得到的分詞詞匯,所述目標文本為待確定標簽的文本;
根據所述分詞詞匯的上下文關系,確定所述目標文本的第一候選標簽;
根據所述分詞詞匯在所述目標文本中的第一頻率參數,和所述分詞詞匯在文本集合中的第二頻率參數,確定所述目標文本的第二候選標簽;
根據所述第一候選標簽和所述第二候選標簽確定所述目標文本的標簽。
另一方面,提供了一種文本標簽確定裝置,所述裝置包括:
處理模塊,用于對目標文本進行分詞處理,得到分詞集合,所述分詞集合中包括所述目標文本分詞得到的分詞詞匯,所述目標文本為待確定標簽的文本;
確定模塊,用于根據所述分詞詞匯的上下文關系,確定所述目標文本的第一候選標簽;
所述確定模塊,還用于根據所述分詞詞匯在所述目標文本中的第一頻率參數,和所述分詞詞匯在文本集合中的第二頻率參數,確定所述目標文本的第二候選標簽;
所述確定模塊,還用于根據所述第一候選標簽和所述第二候選標簽確定所述目標文本的標簽。
另一方面,提供了一種計算機設備,所述計算機設備包括處理器和存儲器,所述存儲器中存儲有至少一條指令、至少一段程序、代碼集或指令集,所述至少一條指令、所述至少一段程序、所述代碼集或指令集由所述處理器加載并執行以實現如上述本申請實施例中任一所述的文本標簽確定方法。
另一方面,提供了一種計算機可讀存儲介質,所述存儲介質中存儲有至少一條指令、至少一段程序、代碼集或指令集,所述至少一條指令、所述至少一段程序、所述代碼集或指令集由處理器加載并執行以實現如上述本申請實施例中任一所述的文本標簽確定方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011065821.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:多語言顯示方法、裝置、設備及產品
- 下一篇:加解密方法、設備及存儲介質





