[發明專利]彈幕文本相似度計算方法、存儲介質、設備及系統在審
| 申請號: | 201811459848.5 | 申請日: | 2018-11-30 |
| 公開(公告)號: | CN109858012A | 公開(公告)日: | 2019-06-07 |
| 發明(設計)人: | 徐樂樂 | 申請(專利權)人: | 武漢斗魚網絡科技有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F16/78;H04N21/488 |
| 代理公司: | 武漢智權專利代理事務所(特殊普通合伙) 42225 | 代理人: | 張凱 |
| 地址: | 430000 湖北省武漢市東湖開*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本相似度 文本 詞頻 設備及系統 存儲介質 數據處理領域 余弦相似度 最終相似度 空間向量 模型映射 權重計算 算法計算 相似度 分詞 保證 | ||
本發明公開了一種彈幕文本相似度計算方法、存儲介質、設備及系統,涉及大數據處理領域,包括:對彈幕A和彈幕B的文本進行分詞,得出彈幕A和彈幕B的相同詞項,以及相同詞項的最小詞頻;計算相同詞項在彈幕A和彈幕B文本中的所占比例;計算基于相同詞項詞頻的彈幕A和彈幕B的文本相似度;將彈幕A和彈幕B的文本通過word2vec模型映射為空間向量,然后基于余弦相似度算法計算彈幕A和彈幕B在文本空間的文本相似度;對彈幕A和彈幕B基于相同詞項詞頻的文本相似度,以及在文本空間的文本相似度進行權重計算,得到彈幕A和彈幕B的最終相似度。本發明能夠有效保證計算得到彈幕文本間相似度的準確性。
技術領域
本發明涉及大數據處理領域,具體涉及一種彈幕文本相似度計算方法、存儲介質、設備及系統。
背景技術
隨著移動互聯網的飛速發展,直播行業也呈現出蓬勃發展之勢,越來越多的年輕人喜歡通過觀看直播的方式來打發業余時間。
用戶在觀看直播的過程中,會通過發送彈幕文本的方式與主播或其它用戶進行互動,但是在某些熱門主播的直播間,由于該直播間用戶數量較多,導致該直播間的彈幕量非常巨大,若對于用戶發送的每一條彈幕均進行展示,便會導致彈幕鋪滿整個直播畫面,為保證用戶的觀看體驗,直播平臺會對彈幕文本間的相似度進行計算,若2條彈幕相識度較高,則僅展示2條彈幕中的1條彈幕,現有技術中對于彈幕相似度的計算有余弦相似度、歐式距離算法等,但這些算法通常只考慮了2條彈幕在空間中的距離,導致彈幕間相似度的計算不夠準確。
發明內容
針對現有技術中存在的缺陷,本發明的目的在于提供一種彈幕文本相似度計算方法、存儲介質、設備及系統,能夠有效保證計算得到彈幕文本間相似度的準確性。
本發明第一方面提供一種彈幕文本相似度計算方法,包括以下步驟:
對彈幕A和彈幕B的文本進行分詞,得出彈幕A和彈幕B的相同詞項,以及相同詞項的最小詞頻;
計算相同詞項在彈幕A和彈幕B文本中的所占比例;
計算基于相同詞項詞頻的彈幕A和彈幕B的文本相似度;
將彈幕A和彈幕B的文本通過word2vec模型映射為空間向量,然后基于余弦相似度算法計算彈幕A和彈幕B在文本空間的文本相似度;
對彈幕A和彈幕B基于相同詞項詞頻的文本相似度,以及在文本空間的文本相似度進行權重計算,得到彈幕A和彈幕B的最終相似度。
結合第一方面,在第一種可能的實現方式中,所述計算相同詞項在彈幕A和彈幕B文本中的所占比例,計算公式為:
其中,P(A,B)表示相同詞項在彈幕A和彈幕B文本中的所占比例,wordi表示相同詞項,ni表示相同詞項的最小詞頻,m表示相同詞項的個數,LA表示彈幕A的文本長度,LB表示彈幕B的文本長度。
結合第一方面的第一種可能的實現方式,在第二種可能的實現方式中,所述計算基于相同詞項詞頻的彈幕A和彈幕B的文本相似度,計算公式為:
其中,Simtf(A,B)表示基于相同詞項詞頻的彈幕A和彈幕B的文本相似度。
結合第一方面的第二種可能的實現方式,在第三種可能的實現方式中,所述基于余弦相似度算法計算彈幕A和彈幕B在文本空間的文本相似度,計算公式為:
其中,simword2vec(A,B)表示彈幕A和彈幕B在文本空間的相似度,表示彈幕A通過word2vec模型映射后的空間向量,表示彈幕B通過word2vec模型映射后的空間向量,p表示的維數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢斗魚網絡科技有限公司,未經武漢斗魚網絡科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811459848.5/2.html,轉載請聲明來源鉆瓜專利網。





