[發明專利]彈幕文本相似度計算方法、存儲介質、設備及系統在審
| 申請號: | 201811459848.5 | 申請日: | 2018-11-30 |
| 公開(公告)號: | CN109858012A | 公開(公告)日: | 2019-06-07 |
| 發明(設計)人: | 徐樂樂 | 申請(專利權)人: | 武漢斗魚網絡科技有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F16/78;H04N21/488 |
| 代理公司: | 武漢智權專利代理事務所(特殊普通合伙) 42225 | 代理人: | 張凱 |
| 地址: | 430000 湖北省武漢市東湖開*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本相似度 文本 詞頻 設備及系統 存儲介質 數據處理領域 余弦相似度 最終相似度 空間向量 模型映射 權重計算 算法計算 相似度 分詞 保證 | ||
1.一種彈幕文本相似度計算方法,其特征在于,包括以下步驟:
對彈幕A和彈幕B的文本進行分詞,得出彈幕A和彈幕B的相同詞項,以及相同詞項的最小詞頻;
計算相同詞項在彈幕A和彈幕B文本中的所占比例;
計算基于相同詞項詞頻的彈幕A和彈幕B的文本相似度;
將彈幕A和彈幕B的文本通過word2vec模型映射為空間向量,然后基于余弦相似度算法計算彈幕A和彈幕B在文本空間的文本相似度;
對彈幕A和彈幕B基于相同詞項詞頻的文本相似度,以及在文本空間的文本相似度進行權重計算,得到彈幕A和彈幕B的最終相似度。
2.如權利要求1所述的一種彈幕文本相似度計算方法,其特征在于:所述計算相同詞項在彈幕A和彈幕B文本中的所占比例,計算公式為:
其中,P(A,B)表示相同詞項在彈幕A和彈幕B文本中的所占比例,wordi表示相同詞項,ni表示相同詞項的最小詞頻,m表示相同詞項的個數,LA表示彈幕A的文本長度,LB表示彈幕B的文本長度。
3.如權利要求2所述的一種彈幕文本相似度計算方法,其特征在于:所述計算基于相同詞項詞頻的彈幕A和彈幕B的文本相似度,計算公式為:
其中,Simtf(A,B)表示基于相同詞項詞頻的彈幕A和彈幕B的文本相似度。
4.如權利要求3所述的一種彈幕文本相似度計算方法,其特征在于:所述基于余弦相似度算法計算彈幕A和彈幕B在文本空間的文本相似度,計算公式為:
其中,simword2vec(A,B)表示彈幕A和彈幕B在文本空間的相似度,表示彈幕A通過word2vec模型映射后的空間向量,表示彈幕B通過word2vec模型映射后的空間向量,p表示的維數。
5.如權利要求4所述的一種彈幕文本相似度計算方法,其特征在于:所述對彈幕A和彈幕B基于相同詞項詞頻的文本相似度,以及在文本空間的文本相似度進行權重計算,得到彈幕A和彈幕B的最終相似度,計算公式為:
Sim(A,B)=λ*Simtf(A,B)+(1-λ)Simword2vec(A,B)
其中,Sim(A,B)表示彈幕A和彈幕B最終相似度,λ為調整系數,取值范圍為[0.6,0.8]。
6.如權利要求1所述的一種彈幕文本相似度計算方法,其特征在于:當彈幕A和彈幕B的最終相似度大于設定閾值時,選取彈幕A或彈幕B中的任一條彈幕在直播畫面上展示,另一條未被選取的彈幕在直播畫面上不作展示。
7.一種存儲介質,該存儲介質上存儲有計算機程序,其特征在于:所述計算機程序被處理器執行時實現以下步驟:
對彈幕A和彈幕B的文本進行分詞,得出彈幕A和彈幕B的相同詞項,以及相同詞項的最小詞頻;
計算相同詞項在彈幕A和彈幕B文本中的所占比例;
計算基于相同詞項詞頻的彈幕A和彈幕B的文本相似度;
將彈幕A和彈幕B的文本通過word2vec模型映射為空間向量,然后基于余弦相似度算法計算彈幕A和彈幕B在文本空間的文本相似度;
對彈幕A和彈幕B基于相同詞項詞頻的文本相似度,以及在文本空間的文本相似度進行權重計算,得到彈幕A和彈幕B的最終相似度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢斗魚網絡科技有限公司,未經武漢斗魚網絡科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811459848.5/1.html,轉載請聲明來源鉆瓜專利網。





