[發明專利]用戶產生內容過濾方法及相關裝置在審
| 申請號: | 202010075298.8 | 申請日: | 2020-01-22 |
| 公開(公告)號: | CN113157901A | 公開(公告)日: | 2021-07-23 |
| 發明(設計)人: | 劉剛 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F16/335 | 分類號: | G06F16/335;G06F16/35;G06F16/9535 |
| 代理公司: | 深圳市隆天聯鼎知識產權代理有限公司 44232 | 代理人: | 魏學昊 |
| 地址: | 518000 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用戶 產生 內容 過濾 方法 相關 裝置 | ||
本申請提供一種用戶產生內容濾除方法及相關裝置,屬于互聯網技術領域。該用戶產生內容評價方法可以包括:獲取用戶產生內容的多個維度向量,所述多個維度向量包括詞向量和句向量;將所述多維度向量輸入關鍵詞庫和/或種子庫和/或內容類型評價模型以確定所述用戶產生內容的內容類型,所述關鍵詞庫中包含關鍵詞詞向量樣本,所述種子庫中包含句向量樣本,所述內容類型評價模型通過多個子評價模型構建;在所述內容類型為目標類型時,濾除所述用戶產生內容。本申請可以有效提升用戶產生內容過濾的可靠性。
技術領域
本申請涉及互聯網技術領域,具體而言,涉及一種用戶產生內容過濾方法及相關裝置。
背景技術
隨著移動互聯網和社交網絡的大規模普及,內容生產的門檻降低,越來越多的用戶每天會產生數以億計的用戶產生內容(UGC),比如評論,點贊等與內容的互動交互。由于用戶發表內容的門檻的降低,用戶產生內容的存在很多低質量內容需要監管違規過濾處理。
現有技術中,用戶產生內容(UGC)低質標準模糊,低質量內容占比低(例如,在QQ看點當中圖文部分約3%,視頻部分約2%),導致有效的低質量內容樣本很少;且高準確度標注的低質量內容樣本缺乏,標注人力缺乏,低俗和謾罵等內容混在一起,難以做到精確建立模型,現在方案采用手工配置的低俗關鍵詞或者一些淺層模型進行打擊,打擊覆蓋低且誤打擊嚴重,結果也沒有得到有效沉淀,響應處理效率低。例如,目前,存在使用FastText、LR/SVM分類結果、標題關鍵詞特征等再訓練LR(Logistic Regression)邏輯回歸模型進行分類過濾的方法。但是,由于用戶產生內容情況復雜,例如,存在UGC內容的短文本信息量少,不像長文本且沒有上下文用來辨別語境,同時評論不具有規范性,口語化、簡稱、網絡用語較多等。目前的模型很難徹底過濾低質的用戶產生內容,所以存在用戶產生內容濾除可靠性較低的問題。
需要說明的是,在上述背景技術部分公開的信息僅用于加強對本公開的背景的理解,因此可以包括不構成對本領域普通技術人員已知的現有技術的信息。
發明內容
本申請實施例的目的在于提供一種用戶產生內容過濾方法及裝置,其能夠有效提升用戶產生內容過濾的可靠性。
根據本申請的一個實施例,一種用戶產生內容過濾方法可以包括:獲取用戶產生內容的多個維度向量,所述多個維度向量包括詞向量和句向量;將所述多維度向量輸入關鍵詞庫和/或種子庫和/或內容類型評價模型以確定所述用戶產生內容的內容類型,所述關鍵詞庫中包含關鍵詞詞向量樣本,所述種子庫中包含句向量樣本,所述內容類型評價模型通過多個子評價模型構建;在所述內容類型為目標類型時,濾除所述用戶產生內容。
在本申請的一些實施例中,還包括:通過基于詞向量的textcnn模型、基于句向量的textcnn-like卷積網絡模型以及基于詞向量、句向量的svm模型構建所述內容類型評價模型。
在本申請的一些實施例中,所述評價模塊還被配置成:將所述多維度向量輸入基于詞向量的textcnn模型中,生成第一評價結果;將所述多維度向量輸入基于句向量的textcnn-like卷積網絡模型中,生成第二評價結果;將所述多維度向量輸入基于詞向量、句向量的svm模型中,生成第三評價結果;通過所述第一評價結果、第二評價結果、第三評價結果確定所述用戶產生內容的內容類型。
在本申請的一些實施例中,所述評價模塊還被配置成:根據融合策略,利用所述第一評價結果、第二評價結果、第三評價結果確定所述用戶產生內容的內容類型,所述融合策略用于指示多個評價結果的聯合評價策略。
在本申請的一些實施例中,所述評價模塊還被配置成:將所述關鍵詞庫中的關鍵詞的詞向量樣本與所述多維度向量中的詞向量進行比較;在所述關鍵詞的詞向量樣本與所述多維度向量中的詞向量存在相同的詞向量樣本時,確定所述用戶產生的內容類型為目標類型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010075298.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種房間狀態更新方法、裝置、設備和存儲介質
- 下一篇:智能門系統
- 內容再現系統、內容提供方法、內容再現裝置、內容提供裝置、內容再現程序和內容提供程序
- 內容記錄系統、內容記錄方法、內容記錄設備和內容接收設備
- 內容服務系統、內容服務器、內容終端及內容服務方法
- 內容分發系統、內容分發裝置、內容再生終端及內容分發方法
- 內容發布、內容獲取的方法、內容發布裝置及內容傳播系統
- 內容提供裝置、內容提供方法、內容再現裝置、內容再現方法
- 內容傳輸設備、內容傳輸方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容發送設備、內容發送方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容再現裝置、內容再現方法、內容再現程序及內容提供系統
- 內容記錄裝置、內容編輯裝置、內容再生裝置、內容記錄方法、內容編輯方法、以及內容再生方法





