[發明專利]一種內容標注方法和相關裝置有效
| 申請號: | 202110449489.0 | 申請日: | 2021-04-25 |
| 公開(公告)號: | CN112862021B | 公開(公告)日: | 2021-08-31 |
| 發明(設計)人: | 朱靈子;馬連洋 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06N20/00 |
| 代理公司: | 深圳市深佳知識產權代理事務所(普通合伙) 44285 | 代理人: | 常忠良 |
| 地址: | 518064 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 內容 標注 方法 相關 裝置 | ||
本申請實施例公開了一種內容標注方法和相關裝置,至少涉及人工智能中的機器學習,包括:獲取待處理內容集合,待處理內容集合中的內容具有通過弱監督訓練的模型所標注的待定標簽;根據待定標簽的標簽置信度,從待處理內容集合的內容中獲取標簽置信度滿足第一閾值的第一目標內容,和標簽置信度不滿足第一閾值的第二目標內容;將第一目標內容作為訓練樣本訓練得到分類模型;通過分類模型對第二目標內容進行標注,得到第二目標內容的候選標簽;根據第二目標內容的待定標簽和候選標簽,確定第二目標內容的實際標簽。相關數據均可以保存在區塊鏈中,通過大數據處理,確定待處理內容集合中的內容的實際標簽,提高了第二目標內容的實際標簽的準確性。
技術領域
本申請涉及數據處理領域,特別是涉及一種內容標注方法和相關裝置。
背景技術
對互聯網中產生的內容進行標注可以實現對內容的有效識別、分類,通過對內容標注的標簽,后續可以作為標注集使用在大量的內容應用場景中,例如基于內容的標簽向用戶有針對性的內容推薦場景。
對未標注的內容進行標注的效率和準確度直接影響了對內容的后續使用,相關技術中主要采用人工標注或基于規則標注兩種方式。
人工標注的標簽雖然準確率尚可,但是非常依賴經驗且效率低下,基于規則標注的方式難以適用于日新月異的各類內容,準確率無法保證。
發明內容
為了解決上述技術問題,本申請提供了一種內容標注方法和相關裝置,用于提高對未標注的內容進行標注的效率和準確度
本申請實施例公開了如下技術方案:
一方面,本申請提供一種內容標注方法,所述方法包括:
獲取待處理內容集合,所述待處理內容集合中的內容具有通過弱監督訓練的模型所標注的待定標簽;
根據所述待定標簽的標簽置信度,從所述待處理內容集合的內容中獲取標簽置信度滿足第一閾值的第一目標內容,和標簽置信度不滿足所述第一閾值的第二目標內容;
將所述第一目標內容作為訓練樣本訓練得到分類模型;
通過所述分類模型對第二目標內容進行標注,得到所述第二目標內容的候選標簽;
根據所述第二目標內容的待定標簽和候選標簽,確定所述第二目標內容的實際標簽。
另一方面,本申請提供一種內容標注裝置,所述裝置包括:獲取單元、訓練單元、標注單元和確定單元;
所述獲取單元,用于獲取待處理內容集合,所述待處理內容集合中的內容具有通過弱監督訓練的模型所標注的待定標簽;
所述獲取單元,還用于根據所述待定標簽的標簽置信度,從所述待處理內容集合的內容中獲取標簽置信度滿足第一閾值的第一目標內容,和標簽置信度不滿足所述第一閾值的第二目標內容;
所述訓練單元,用于將所述第一目標內容作為訓練樣本訓練得到分類模型;
所述標注單元,用于通過所述分類模型對第二目標內容進行標注,得到所述第二目標內容的候選標簽;
所述確定單元,用于根據所述第二目標內容的待定標簽和候選標簽,確定所述第二目標內容的實際標簽。
另一方面,本申請提供一種計算機設備,所述設備包括處理器以及存儲器:
所述存儲器用于存儲程序代碼,并將所述程序代碼傳輸給所述處理器;
所述處理器用于根據所述程序代碼中的指令執行上述方面所述的方法。
另一方面,本申請實施例提供了一種計算機可讀存儲介質,所述計算機可讀存儲介質用于存儲計算機程序,所述計算機程序用于執行上述方面所述的方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110449489.0/2.html,轉載請聲明來源鉆瓜專利網。
- 內容再現系統、內容提供方法、內容再現裝置、內容提供裝置、內容再現程序和內容提供程序
- 內容記錄系統、內容記錄方法、內容記錄設備和內容接收設備
- 內容服務系統、內容服務器、內容終端及內容服務方法
- 內容分發系統、內容分發裝置、內容再生終端及內容分發方法
- 內容發布、內容獲取的方法、內容發布裝置及內容傳播系統
- 內容提供裝置、內容提供方法、內容再現裝置、內容再現方法
- 內容傳輸設備、內容傳輸方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容發送設備、內容發送方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容再現裝置、內容再現方法、內容再現程序及內容提供系統
- 內容記錄裝置、內容編輯裝置、內容再生裝置、內容記錄方法、內容編輯方法、以及內容再生方法





