[發明專利]彈幕相似度計算方法、存儲介質、設備及系統在審
| 申請號: | 201910073309.6 | 申請日: | 2019-01-25 |
| 公開(公告)號: | CN109857995A | 公開(公告)日: | 2019-06-07 |
| 發明(設計)人: | 徐樂樂 | 申請(專利權)人: | 武漢斗魚網絡科技有限公司 |
| 主分類號: | G06F17/22 | 分類號: | G06F17/22;G06F17/27;H04N21/2187;H04N21/235;H04N21/431;H04N21/435 |
| 代理公司: | 武漢智權專利代理事務所(特殊普通合伙) 42225 | 代理人: | 張凱 |
| 地址: | 430000 湖北省武漢市武漢東湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 匹配度 向量化 設備及系統 相似度計算 存儲介質 相似度 分詞 數據處理領域 文本 | ||
1.一種彈幕相似度計算方法,其特征在于,包括以下步驟:
對彈幕A和彈幕B的文本進行分詞,并將分詞后得到的每個詞項通過word2vec進行向量化表示;
基于向量化表示的詞項,計算彈幕A的每個詞項與彈幕B的匹配度,以及計算彈幕B的每個詞項與彈幕A的匹配度;
基于向量化表示的詞項,計算彈幕A的每個詞項與彈幕B的共現度,以及計算彈幕B的每個詞項與彈幕A的共現度;
計算得到的所有匹配度之和除以所有共現度之和,得到彈幕A和彈幕B的相似度。
2.如權利要求1所述的一種彈幕相似度計算方法,其特征在于:所述計算彈幕A的每個詞項與彈幕B的匹配度,計算公式為:
其中,Simmax(wordAi,B)表示彈幕A中第i個詞項與彈幕B的匹配度,表示彈幕A中第i個詞項的向量,表示彈幕B中第j個詞項的向量,wordBj表示彈幕B中第j個詞項,B表示彈幕B的所有詞項,表示計算和的余弦相似度。
3.如權利要求2所述的一種彈幕相似度計算方法,其特征在于:所述計算彈幕B的每個詞項與彈幕A的匹配度,計算公式為:
其中,Simmax(wordBi,A)表示彈幕B中第i個詞項與彈幕A的匹配度,表示彈幕B中第i個詞項的向量,表示彈幕A中第j個詞項的向量,wordAj表示彈幕A中第j個詞項,A表示彈幕A的所有詞項,表示計算和的余弦相似度。
4.如權利要求3所述的一種彈幕相似度計算方法,其特征在于:所述彈幕A的每個詞項與彈幕B的共現度,計算公式為:
其中,simall(wordAi,B)表示彈幕A中第i個詞項與彈幕B的共現度。
5.如權利要求4所述的一種彈幕相似度計算方法,其特征在于:所述彈幕B的每個詞項與彈幕A的共現度,計算公式為:
其中,simall(wordBi,A)表示彈幕B中第i個詞項與彈幕A的共現度。
6.如權利要求5所述的一種彈幕相似度計算方法,其特征在于:所述計算得到的所有匹配度之和除以所有共現度之和,計算公式為:
其中,Sim(A,B)表示彈幕A和彈幕B的相似度,α表示彈幕A中詞項的總個數,β表示彈幕B中詞項的總個數。
7.如權利要求1所述的一種彈幕相似度計算方法,其特征在于:當彈幕A和彈幕B的相似度大于設定閾值時,選取彈幕A或彈幕B中的任一條彈幕在直播畫面上展示,另一條未被選取的彈幕在直播畫面上不作展示。
8.一種存儲介質,該存儲介質上存儲有計算機程序,其特征在于:所述計算機程序被處理器執行時實現以下步驟:
對彈幕A和彈幕B的文本進行分詞,并將分詞后得到的每個詞項通過word2vec進行向量化表示;
基于向量化表示的詞項,計算彈幕A的每個詞項與彈幕B的匹配度,以及計算彈幕B的每個詞項與彈幕A的匹配度;
基于向量化表示的詞項,計算彈幕A的每個詞項與彈幕B的共現度,以及計算彈幕B的每個詞項與彈幕A的共現度;
計算得到的所有匹配度之和除以所有共現度之和,得到彈幕A和彈幕B的相似度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢斗魚網絡科技有限公司,未經武漢斗魚網絡科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910073309.6/1.html,轉載請聲明來源鉆瓜專利網。





