[發明專利]基于內容和用戶標識的彈幕過濾方法、裝置及存儲介質有效
| 申請號: | 202011417368.X | 申請日: | 2020-12-07 |
| 公開(公告)號: | CN112507164B | 公開(公告)日: | 2022-04-12 |
| 發明(設計)人: | 吳渝;李芊;王利;于磊 | 申請(專利權)人: | 重慶郵電大學 |
| 主分類號: | G06F16/735 | 分類號: | G06F16/735;G06F16/75;G06F16/783;G06F16/951;G06F40/258;G06F40/284;G06F40/30;G06K9/62 |
| 代理公司: | 成都行之專利代理事務所(普通合伙) 51220 | 代理人: | 李朝虎 |
| 地址: | 400000 重*** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 內容 用戶 標識 彈幕 過濾 方法 裝置 存儲 介質 | ||
1.一種基于內容和用戶標識的彈幕過濾方法,其特征在于,包括以下步驟:
S1、使用python爬蟲軟件爬取彈幕視頻網站的彈幕數據和用戶數據,對爬取到的數據進行清洗并對彈幕數據進行打標分為普通彈幕和不良彈幕,其中,彈幕數據包括彈幕短文本;
S2、對步驟S1中打標后的彈幕短文本進行擴展,并對擴展后的彈幕短文本進行文本的特征表示優化,得到擴展文本特征;
S3、構造用戶平臺類特征,對用戶數據進行分析,在用戶數據原始特征的基礎上新構造用戶信譽等級特征和用戶身份可信度特征;
S4、將步驟S1中打標好的彈幕數據分為訓練集和測試集,利用五折交叉驗證訓練SVM模型,構造彈幕內容分類模型,將步驟S2得到的擴展文本特征和步驟S3得到的用戶平臺類特征進行拼接輸入到所述彈幕內容分類模型中,輸出彈幕分類結果。
2.根據權利要求1所述的一種基于內容和用戶標識的彈幕過濾方法,其特征在于,步驟S1中對所述彈幕數據進行打標的具體過程為根據彈幕內容對彈幕數據進行打標,將具有不文明用語、無意義的單個字符、全是表情符號的彈幕內容標為1,其他彈幕內容標為0,其中0代表普通彈幕,1代表不良彈幕。
3.根據權利要求1所述的一種基于內容和用戶標識的彈幕過濾方法,其特征在于,步驟S2具體包括以下步驟:
S21、根據外部語料庫預訓練Word2Vec模型;
S22、構建最優特征空間和標簽主題特征空間;
S23、根據構建的最優特征空間和標簽主題特征空間,基于預訓練的Word2Vec模型對彈幕短文本中符合條件的詞匯進行擴展,得到擴展短文本;
S24、改進文本表示方法,在擴展短文本中引入擴展影響因子表示擴展詞語對彈幕短文本的影響程度,得到擴展文本特征。
4.根據權利要求3所述的一種基于內容和用戶標識的彈幕過濾方法,其特征在于,外部語料庫語料集包括彈幕視頻網站視頻下方的評論數據和視頻中的彈幕數據。
5.根據權利要求3所述的一種基于內容和用戶標識的彈幕過濾方法,其特征在于,構建最優特征空間和標簽主題特征空間具體包括以下步驟:
S221、利用卡方檢驗方法提取彈幕短文本中具有類別傾向性的特征詞,構建最優特征空間;
S222、采用聚合策略,將每個標簽下的所有彈幕短文本合并成長文本,并將各標簽下的長文本輸入LDA主題模型進行訓練;
S223、利用LDA主題模型得到文本-主題概率矩陣,得到每個標簽在各個主題下的概率,選取每個標簽下概率大的前n個主題構建標簽主題特征空間。
6.根據權利要求3所述的一種基于內容和用戶標識的彈幕過濾方法,其特征在于,對所述符合條件的詞匯進行擴展具體包括以下步驟:
S231、根據構建的標簽主題特征空間中的主題構成主題詞文件;
S232、遍歷彈幕短文本中的詞匯,若詞匯屬于最優特征空間時,基于主題-主題詞分布矩陣計算該詞所屬的最大概率主題;
S233、根據主題詞文件查看該詞匯是否屬于對應主題的主題詞,若不屬于,則不對該詞匯進行擴展;
S234、若屬于,則再查看所述詞匯的最大概率主題是否屬于標簽主題特征空間,若屬于,利用Word2Vec模型將相似度高的前k個詞匯作為擴展詞加入彈幕短文本中;若不屬于,則不對該詞匯進行擴展。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶郵電大學,未經重慶郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011417368.X/1.html,轉載請聲明來源鉆瓜專利網。
- 內容再現系統、內容提供方法、內容再現裝置、內容提供裝置、內容再現程序和內容提供程序
- 內容記錄系統、內容記錄方法、內容記錄設備和內容接收設備
- 內容服務系統、內容服務器、內容終端及內容服務方法
- 內容分發系統、內容分發裝置、內容再生終端及內容分發方法
- 內容發布、內容獲取的方法、內容發布裝置及內容傳播系統
- 內容提供裝置、內容提供方法、內容再現裝置、內容再現方法
- 內容傳輸設備、內容傳輸方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容發送設備、內容發送方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容再現裝置、內容再現方法、內容再現程序及內容提供系統
- 內容記錄裝置、內容編輯裝置、內容再生裝置、內容記錄方法、內容編輯方法、以及內容再生方法





