[發明專利]彈幕文本相似度計算方法、存儲介質、設備及系統在審

申請號：	201811459848.5	申請日：	2018-11-30
公開（公告）號：	CN109858012A	公開（公告）日：	2019-06-07
發明（設計）人：	徐樂樂	申請（專利權）人：	武漢斗魚網絡科技有限公司
主分類號：	G06F17/27	分類號：	G06F17/27;G06F16/78;H04N21/488
代理公司：	武漢智權專利代理事務所(特殊普通合伙) 42225	代理人：	張凱
地址：	430000 湖北省武漢市東湖開***	國省代碼：	湖北;42
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	文本相似度文本詞頻設備及系統存儲介質數據處理領域余弦相似度最終相似度空間向量模型映射權重計算算法計算相似度分詞保證
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明公開了一種彈幕文本相似度計算方法、存儲介質、設備及系統，涉及大數據處理領域，包括:對彈幕A和彈幕B的文本進行分詞，得出彈幕A和彈幕B的相同詞項，以及相同詞項的最小詞頻；計算相同詞項在彈幕A和彈幕B文本中的所占比例；計算基于相同詞項詞頻的彈幕A和彈幕B的文本相似度；將彈幕A和彈幕B的文本通過word2vec模型映射為空間向量，然后基于余弦相似度算法計算彈幕A和彈幕B在文本空間的文本相似度；對彈幕A和彈幕B基于相同詞項詞頻的文本相似度，以及在文本空間的文本相似度進行權重計算，得到彈幕A和彈幕B的最終相似度。本發明能夠有效保證計算得到彈幕文本間相似度的準確性。

技術領域

本發明涉及大數據處理領域，具體涉及一種彈幕文本相似度計算方法、存儲介質、設備及系統。

背景技術

隨著移動互聯網的飛速發展，直播行業也呈現出蓬勃發展之勢，越來越多的年輕人喜歡通過觀看直播的方式來打發業余時間。

用戶在觀看直播的過程中，會通過發送彈幕文本的方式與主播或其它用戶進行互動，但是在某些熱門主播的直播間，由于該直播間用戶數量較多，導致該直播間的彈幕量非常巨大，若對于用戶發送的每一條彈幕均進行展示，便會導致彈幕鋪滿整個直播畫面，為保證用戶的觀看體驗，直播平臺會對彈幕文本間的相似度進行計算，若2條彈幕相識度較高，則僅展示2條彈幕中的1條彈幕，現有技術中對于彈幕相似度的計算有余弦相似度、歐式距離算法等，但這些算法通常只考慮了2條彈幕在空間中的距離，導致彈幕間相似度的計算不夠準確。

發明內容

針對現有技術中存在的缺陷，本發明的目的在于提供一種彈幕文本相似度計算方法、存儲介質、設備及系統，能夠有效保證計算得到彈幕文本間相似度的準確性。

本發明第一方面提供一種彈幕文本相似度計算方法，包括以下步驟：

對彈幕A和彈幕B的文本進行分詞，得出彈幕A和彈幕B的相同詞項，以及相同詞項的最小詞頻；

計算相同詞項在彈幕A和彈幕B文本中的所占比例；

計算基于相同詞項詞頻的彈幕A和彈幕B的文本相似度；

將彈幕A和彈幕B的文本通過word2vec模型映射為空間向量，然后基于余弦相似度算法計算彈幕A和彈幕B在文本空間的文本相似度；

對彈幕A和彈幕B基于相同詞項詞頻的文本相似度，以及在文本空間的文本相似度進行權重計算，得到彈幕A和彈幕B的最終相似度。

結合第一方面，在第一種可能的實現方式中，所述計算相同詞項在彈幕A和彈幕B文本中的所占比例，計算公式為：

其中，P(A,B)表示相同詞項在彈幕A和彈幕B文本中的所占比例，word_i表示相同詞項，n_i表示相同詞項的最小詞頻，m表示相同詞項的個數，L_A表示彈幕A的文本長度，L_B表示彈幕B的文本長度。

結合第一方面的第一種可能的實現方式，在第二種可能的實現方式中，所述計算基于相同詞項詞頻的彈幕A和彈幕B的文本相似度，計算公式為：

其中，Sim_tf(A,B)表示基于相同詞項詞頻的彈幕A和彈幕B的文本相似度。