[發明專利]一種標簽的標記方法、裝置、服務器和存儲介質有效
| 申請號: | 201811229982.6 | 申請日: | 2018-10-22 |
| 公開(公告)號: | CN109547863B | 公開(公告)日: | 2021-06-15 |
| 發明(設計)人: | 徐樂樂 | 申請(專利權)人: | 武漢斗魚網絡科技有限公司 |
| 主分類號: | H04N21/488 | 分類號: | H04N21/488;H04N21/8352;G06F16/35 |
| 代理公司: | 北京品源專利代理有限公司 11332 | 代理人: | 孟金喆 |
| 地址: | 430070 湖北省武漢市東湖開*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 標簽 標記 方法 裝置 服務器 存儲 介質 | ||
1.一種標簽的標記方法,其特征在于,包括:
從直播類別中的直播間提取多個類型的文本信息;
從所述文本信息中提取特征詞;
根據所述特征詞與所述直播類別之間的關聯性從所述特征詞中篩選候選詞;
根據所述文本信息對應的類型從所述候選詞中篩選目標詞;
將所述目標詞設置為所述直播類別的標簽信息。
2.根據權利要求1所述的方法,其特征在于,所述根據所述特征詞與所述直播類別之間的關聯性從所述特征詞中篩選候選詞,包括:
基于所述特征詞與所述直播類別之間的分布差異計算所述特征詞的期望值,其中,所述期望值與所述分布差異正相關;
按照所述期望值從所述特征詞中篩選候選詞。
3.根據權利要求2所述的方法,其特征在于,通過如下公式計算所述特征詞的期望值
其中,N為所述文本信息的數量,A表示在直播類別v中出現特征詞w的次數,B表示在非直播類別v中出現特征詞w的次數,C表示在直播類別v中出現非特征詞w的次數,D表示在非直播類別v中出現非特征詞w的次數。
4.根據權利要求1-3任一項所述的方法,其特征在于,所述根據所述文本信息對應的類型從所述候選詞中篩選目標詞,包括:
計算所述候選詞在所述類型中的分類評分值;
結合所述分類評分值計算所述候選詞的綜合評分值;
按照所述綜合評分值從所述候選詞中篩選目標詞。
5.根據權利要求4所述的方法,其特征在于,所述計算所述候選詞在所述類型中的分類評分值,包括:
統計所述候選詞在所述類型中出現的總次數;
按照所述總次數計算所述候選詞在所述類型中的分類評分值,其中,所述總次數與所述分類評分值正相關。
6.根據權利要求4所述的方法,其特征在于,所述結合所述分類評分值計算所述候選詞的綜合評分值,包括:
按照所述類型對所述分類評分值配置權重,獲得調權評分值;
計算所述調權評分值之和,作為所述候選詞的綜合評分值。
7.根據權利要求4所述的方法,其特征在于,所述文本信息的類型包括如下至少一種:
所述直播間的標題、所述直播間的彈幕、子分類名稱;
其中,所述子分類名稱為所述直播間在所述直播類別下歸屬的直播子分類的名稱;
通過如下公式計算所述候選詞w的綜合評分值R(w):
R(w)=λ1*log(tf_text(w)+1)+λ2*log(tf_t(w)+1)+λ3*log(tf_zone(w)+1)
其中,tf_text(w)為候選詞w在所述直播間的標題、所述直播間的彈幕與子分類名稱中出現的總次數,tf_t(w)為候選詞w在所述直播間的標題中出現的總次數,tf_zone(w)為候選詞w在子分類名稱中出現的總次數,λ1、λ2、λ3為權重。
8.一種標簽的標記裝置,其特征在于,包括:
文本信息提取模塊,用于從直播類別中的直播間提取多個類型的文本信息;
特征詞提取模塊,用于從所述文本信息中提取特征詞;
候選詞篩選模塊,用于根據所述特征詞與所述直播類別之間的關聯性從所述特征詞中篩選候選詞;
目標詞篩選模塊,用于根據所述文本信息對應的類型從所述候選詞中篩選目標詞;
標簽信息設置模塊,用于將所述目標詞設置為所述直播類別的標簽信息。
9.一種服務器,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,其特征在于,所述處理器執行所述程序時實現如權利要求1-7中任一所述的標簽的標記方法。
10.一種計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,該程序被處理器執行時實現如權利要求1-7中任一所述的標簽的標記方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢斗魚網絡科技有限公司,未經武漢斗魚網絡科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811229982.6/1.html,轉載請聲明來源鉆瓜專利網。





