[發明專利]主題詞分類模型創建方法、創建裝置及存儲介質有效
| 申請號: | 201710447182.0 | 申請日: | 2017-06-14 |
| 公開(公告)號: | CN107330009B | 公開(公告)日: | 2022-03-08 |
| 發明(設計)人: | 孫子荀 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06K9/62 |
| 代理公司: | 深圳翼盛智成知識產權事務所(普通合伙) 44300 | 代理人: | 黃威 |
| 地址: | 518000 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 主題詞 分類 模型 創建 方法 裝置 存儲 介質 | ||
本發明提供一種主題詞分類模型創建方法,其包括:獲取多個模型訓練文檔,并提取所述模型訓練文檔的標簽詞;基于相似度算法,獲取標簽詞對應的核心主題詞組;基于映射內容庫,獲取核心主題詞組對應的第一模型訓練文檔集合;基于機器學習算法,對多個模型訓練文檔進行分類操作;基于映射內容庫,獲取標簽詞對應的所有模型訓練文檔的主體類別標識,并根據標簽詞對應的主體類別標識,確定標簽詞對應的第二模型訓練文檔集合;將標簽詞對應的第一模型訓練文檔集合和第二模型訓練文檔集合中重復的模型訓練文檔作為正樣本,映射內容庫中的其他模型訓練文檔作為負樣本,創建標簽詞的主題詞分類模型。本發明還提供一種主題詞分類模型創建裝置及存儲介質。
技術領域
本發明涉及數據處理領域,特別是涉及一種主題詞分類模型創建方法、創建裝置及存儲介質。
背景技術
在互聯網內容分發系統中,需要通過主題詞對文章進行分類,該主題詞是指可以代表文章主要內容特征的詞,這樣用戶可以通過主題詞方便快捷的了解該文章的內容。
現有的文章主題詞一般為文章中出現的標簽詞,而文章中標簽詞的提取算法要求文章的標簽詞必須在該文章中出現過,這樣就大大限制了文章主題詞的抽象程度以及概括能力。例如一篇描述某個具體黑科技的文章中可能不會出現“黑科技”這個標簽詞,這樣導致使用上述標簽詞提取算法無法將該文章的主題詞設置為“黑科技”。同理“東北風”以及“小資生活”等抽象程度較高的詞匯無法成為文章的主題詞。
為了解決上述文章主題詞的設置問題,現有的主題詞分類器通過建立主題詞分類模型來使文章主題詞判斷自動化,但是上述主題詞分類模型需要收集大量標注好主題詞的文章進行訓練,因此需要大量人力物力對大量文章進行較為準確的主題詞標注,以便生成較為準確的主題詞分類模型。
發明內容
本發明實施例提供一種可準確創建主題詞分類模型,創建過程簡單且創建成本較低的主題詞分類模型創建方法、創建裝置及存儲介質;以解決現有的主題詞分類模型創建方法、創建裝置及存儲介質中的主題詞分類模型的準確性較差或主題詞分類模型的創建過程復雜且創建成本較高的技術問題。
本發明實施例提供一種主題詞分類模型創建方法,其包括:
獲取多個模型訓練文檔,并提取所述模型訓練文檔的標簽詞,以建立所述模型訓練文檔與所述標簽詞的映射內容庫;
基于相似度算法,獲取所述標簽詞對應的核心主題詞組;其中所述核心主題詞組中包括多個核心主題詞;
基于所述映射內容庫,獲取所述核心主題詞組對應的第一模型訓練文檔集合;
基于機器學習算法,對多個所述模型訓練文檔進行分類操作;其中每個類別的模型訓練文檔具有一個主體類別標識;
基于所述映射內容庫,獲取所述標簽詞對應的所有模型訓練文檔的主體類別標識,并根據所述標簽詞對應的主體類別標識,確定所述標簽詞對應的第二模型訓練文檔集合;以及
將所述標簽詞對應的第一模型訓練文檔集合和第二模型訓練文檔集合中重復的模型訓練文檔作為正樣本,所述映射內容庫中的其他模型訓練文檔作為負樣本,創建所述標簽詞的主題詞分類模型。
本發明實施例還提供一種主題詞分類模型創建裝置,其包括:
映射內容庫建立模塊,用于獲取多個模型訓練文檔,并提取所述模型訓練文檔的標簽詞,以建立所述模型訓練文檔與所述標簽詞的映射內容庫;
核心主題詞組獲取模塊,用于基于相似度算法,獲取所述標簽詞對應的核心主題詞組;其中所述核心主題詞組中包括多個核心主題詞;
第一模型訓練文檔集合獲取模塊,用于基于所述映射內容庫,獲取所述核心主題詞組對應的第一模型訓練文檔集合;
分類模塊,用于基于機器學習算法,對多個所述模型訓練文檔進行分類操作;其中每個類別的模型訓練文檔具有一個主體類別標識;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710447182.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種直聯無油空氣壓縮機
- 下一篇:一種基于機器學習的后臺路徑爆破方法





