[發明專利]彈幕類別識別方法、裝置、設備及存儲介質在審

申請號：	201811310439.9	申請日：	2018-11-06
公開（公告）號：	CN109766435A	公開（公告）日：	2019-05-17
發明（設計）人：	王非池	申請（專利權）人：	武漢斗魚網絡科技有限公司
主分類號：	G06F16/35	分類號：	G06F16/35;G06F17/27;H04N21/488
代理公司：	北京品源專利代理有限公司 11332	代理人：	孟金喆
地址：	430070 湖北省武漢市武漢東湖***	國省代碼：	湖北;42
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	文本特征邏輯回歸模型存儲介質類別識別行為特征用戶行為特征大小關系情緒信息文本信息有效地統計子彈輸出融合
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明實施例公開了一種彈幕類別識別方法、裝置、設備及存儲介質，該方法包括：獲取待處理彈幕的文本特征的特征值；獲取用戶行為特征的統計值；將所述文本特征的特征值和所述行為特征的統計值輸入已訓練的邏輯回歸模型，并根據該已訓練的邏輯回歸模型的輸出值與閾值的大小關系確定所述待處理彈幕的彈幕類別，其中，所述彈幕類別包括正常彈幕和噴子彈幕。將文本特征的文本特征與用戶的行為特征融合，結合邏輯回歸模型來識別諷刺彈幕，有效地提取了文本信息中的情緒信息，從而顯著地提高諷刺彈幕識別的敏感性。

技術領域

本發明實施例涉及數據處理技術領域，尤其涉及一種彈幕類別識別方法、裝置、設備及存儲介質。

背景技術

彈幕是直播平臺中用戶進行交互的直接手段之一，高質量的彈幕文化容易讓用戶對直播平臺留下深刻印象，增加平臺的用戶留存；而諷刺、帶有攻擊性的彈幕會對平臺造成了許多負面的影響，比如影響主播的直播體驗，減少主播的直播欲望。如果在直播過程中，可以對這些彈幕進行過濾，只保留對直播有正面影響的彈幕，直播平臺的觀看體驗會有一定的提升。現有技術往往直接利用文本識別方法來識別諷刺彈幕，但識別效果較差，導致諷刺彈幕的過濾效果并不理想。

發明內容

本發明實施例提供一種彈幕類別識別方法、裝置、設備及存儲介質，以解決現有技術的彈幕類別識別方法的識別效果較差的技術問題，以提高彈幕類別的確定速度。

第一方面，本發明實施例提供了一種彈幕類別識別方法，包括：

獲取待處理彈幕的文本特征的特征值；

獲取用戶行為特征的統計值；

將所述文本特征的特征值和所述行為特征的統計值輸入已訓練的邏輯回歸模型，并根據該已訓練的邏輯回歸模型的輸出值與閾值的大小關系確定所述待處理彈幕的彈幕類別，其中，所述彈幕類別包括正常彈幕和噴子彈幕。

進一步，所述待處理彈幕的文本特征的特征值，包括：

所述待處理彈幕的預設標點符號特征的特征值、預設表情特征的特征值和預設負面詞語特征的特征值，以及所述待處理彈幕的有效分詞的TF-IDF值。

進一步，所述預設標點符號特征的特征值為：若待處理彈幕存在預設標點符號特征，則該預設標點符號特征的特征值為1，否則為0；

所述預設表情特征的特征值為：若待處理彈幕存在預設表情特征，則該預設表情特征的特征值為1，否則為0；

所述預設負面詞語特征的特征值為：若待處理彈幕存在預設負面詞語特征，則該預設詞語特征的特征值為1，否則為0。

進一步，求取所述待處理彈幕的有效分詞的TF-IDF值，包括：