[發明專利]文本處理方法、裝置、電子設備及可讀存儲介質在審
| 申請號: | 202011046024.2 | 申請日: | 2020-09-28 |
| 公開(公告)號: | CN112115300A | 公開(公告)日: | 2020-12-22 |
| 發明(設計)人: | 唐顥誠;許永恒;姜文 | 申請(專利權)人: | 北京奇藝世紀科技有限公司 |
| 主分類號: | G06F16/735 | 分類號: | G06F16/735;G06F16/78;G06F16/783 |
| 代理公司: | 北京潤澤恒知識產權代理有限公司 11319 | 代理人: | 呂俊秀 |
| 地址: | 100080 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 處理 方法 裝置 電子設備 可讀 存儲 介質 | ||
1.一種文本處理方法,其特征在于,所述方法包括:
根據用戶針對視頻生成的評論文本,獲取所述視頻的待選推薦理由;
利用預設的點擊率預測模型,根據所述視頻的待選推薦理由的文本特征和待推薦用戶的用戶特征,生成所述待選推薦理由對應的預測點擊率;
將對應的預測點擊率滿足預設條件的待選推薦理由確定為所述視頻的目標推薦理由。
2.根據權利要求1所述的方法,其特征在于,所述根據用戶針對視頻生成的評論文本,獲取所述視頻的待選推薦理由,包括:
根據所述評論文本的文本長度以及包含的詞語個數,從所述評論文本中篩選備選文本;
從所述備選文本中篩選文本質量滿足預設質量要求的目標文本;
根據所述目標文本,生成所述待選推薦理由。
3.根據權利要求2所述的方法,其特征在于,所述從所述備選文本中篩選文本質量滿足預設質量要求的目標文本,包括:
檢測所述備選文本是否滿足預設情感要求、預設通順度要求、預設敏感詞要求及預設表述形式要求中的至少一種;
若是,將所述備選文本確定為所述目標文本;
其中,所述預設情感要求為所述備選文本對應的情感傾向不為負向;所述預設通順度要求為所述備選文本的通順度大于預設通順序閾值;所述預設敏感詞要求為所述備選文本中未出現預設敏感詞;所述預設表述形式要求為所述備選文本的表述形式不符合預設的違規評論文本表述形式。
4.根據權利要求2所述的方法,其特征在于,所述根據所述目標文本,生成所述待選推薦理由,包括:
將所述目標文本作為所述待選推薦理由,或者,將所述目標文本作為預設文本生成模型的輸入,獲取所述預設文本生成模型的輸出,以作為所述待選推薦理由;所述預設文本生成模型用于生成與所述目標文本內容相似的文本。
5.根據權利要求1所述的方法,其特征在于,所述評論文本包括彈幕文本、所述用戶在所述視頻對應的評論區中發表的文本和/或所述用戶轉發所述視頻時添加的文本。
6.根據權利要求1所述的方法,其特征在于,在所述根據用戶針對視頻生成的評論文本,獲取所述視頻的待選推薦理由之前,所述方法還包括:接收調用方傳入的至少一個視頻標識;將所述視頻標識對應的視頻確定為所述視頻;
在所述將對應的預測點擊率滿足預設條件的待選推薦理由確定為所述視頻的目標推薦理由之后,所述方法還包括:向所述調用方返回所述目標推薦理由。
7.根據權利要求1至6任一所述的方法,其特征在于,所述預設的點擊率預測模型通過下述步驟獲取:
根據樣本用戶對樣本視頻的目標點擊率、所述樣本用戶的用戶特征及樣本推薦理由的文本特征,構建訓練樣本對;其中,所述目標點擊率用于表征以所述樣本推薦理由對所述樣本視頻進行推薦時所述樣本視頻的點擊率;
根據所述訓練樣本對,對初始點擊率預測模型進行訓練,以獲取所述預設的點擊率預測模型。
8.根據權利要求7所述的方法,其特征在于,所述目標點擊率通過下述步驟獲取:
獲取所述樣本用戶在預設時長內對樣本視頻的樣本彈幕文本的頂踩量;
根據所述頂踩量,生成所述目標點擊率;所述目標點擊率與所述頂踩量中的頂量正相關,與所述頂踩量中的踩量負相關。
9.根據權利要求7所述的方法,其特征在于,所述用戶特征包括個人信息特征、視頻偏好特征、演員偏好特征中的至少一種。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京奇藝世紀科技有限公司,未經北京奇藝世紀科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011046024.2/1.html,轉載請聲明來源鉆瓜專利網。





