[發明專利]一種數據處理方法及裝置在審
| 申請號: | 202010973496.6 | 申請日: | 2020-09-16 |
| 公開(公告)號: | CN112052395A | 公開(公告)日: | 2020-12-08 |
| 發明(設計)人: | 嚴浩;宮兆漢;彭君睿;陳煒鵬;許靜芳 | 申請(專利權)人: | 北京搜狗科技發展有限公司 |
| 主分類號: | G06F16/9535 | 分類號: | G06F16/9535;G06N20/00 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 儲倩 |
| 地址: | 100084 北京市海淀區中關*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 數據處理 方法 裝置 | ||
本申請實施例提供了一種數據處理方法,包括:獲取第一查詢語句,并確定第一查詢語句的特征向量。獲取多個自媒體賬號中每個自媒體賬號分別對應的特征向量。確定第一查詢語句的特征向量和每個自媒體賬號分別對應的特征向量之后,可以根據第一查詢語句的特征向量、以及所述每個自媒體賬號分別對應的特征向量,確定每個自媒體賬號和第一查詢語句的匹配程度。并根據每個自媒體賬號和第一查詢語句的匹配程度,對多個自媒體賬號進行排序,并輸出排序靠前的第一數目個自媒體賬號的信息。賬號排序越靠前,說明該賬號發布的內容和第一查詢語句的相關程度越高。由此可見,利用本方案,可以為用戶推薦發布內容與第一查詢語句相關程度比較高的自媒體賬號。
技術領域
本申請涉及數據處理領域,特別是涉及一種數據處理方法及裝置。
背景技術
隨著網絡技術的發展,用戶可以通過網絡獲取信息。目前,出現了一些公眾賬號,公眾賬號可以發布一些內容例如文章或者視頻等,以供用戶查看。在一些場景中,“公眾賬號”也可以被稱為“公眾號”。
目前,對于某一話題,會有許多公眾號發布相關的內容,如何為用戶確定與用戶關注的話題相關程度高的公眾號,是目前尚待解決的問題。
發明內容
本申請所要解決的技術問題是如何為用戶確定與用戶關注的話題相關程度高的公眾號,提供一種數據處理方法及裝置。
第一方面,本申請實施例提供了一種數據處理方法,所述方法包括:
獲取第一查詢語句,并確定所述第一查詢語句的特征向量;
獲取多個自媒體賬號中每個自媒體賬號分別對應的特征向量;
根據所述第一查詢語句的特征向量、以及所述多個自媒體賬號中每個自媒體賬號分別對應的特征向量,確定每個自媒體賬號和所述第一查詢語句的匹配程度;
根據所述每個自媒體賬號和所述第一查詢語句的匹配程度,對所述多個自媒體賬號進行排序;
輸出排序靠前的第一數目個自媒體賬號的信息。
在一種實現方式中,所述多個自媒體賬號包括第一賬號,所述第一賬號對應的特征向量,根據所述第一賬號的賬號描述信息和/或所述第一賬號歷史發布的內容確定。
在一種實現方式中,所述多個自媒體賬號包括第一賬號,所述第一賬號和所述第一查詢語句的匹配程度,包括:
所述第一賬號的特征向量和所述第一查詢語句的特征向量的余弦相似度。
在一種實現方式中,所述多個自媒體賬號包括第一賬號,所述第一賬號和所述第一查詢語句的匹配程度,通過如下方式確定:
將所述第一賬號的特征向量和所述第一查詢語句的特征向量輸入預先訓練的機器學習模型,得到所述第一賬號和所述第一查詢語句的匹配程度;其中:
所述機器學習模型用于根據所述第一賬號的特征向量和所述第一查詢語句的特征向量,得到所述第一賬號和所述第一查詢語句的匹配程度。
在一種實現方式中,所述機器學習模型,根據訓練查詢語句的特征向量、正樣本賬號的特征向量以及負樣本賬號的特征向量訓練得到,其中,所述正樣本賬號與所述訓練查詢語句的匹配程度,高于所述負樣本賬號與所述訓練查詢語句的匹配程度。
在一種實現方式中,
所述正樣本賬號包括:
向網絡用戶推薦的與所述訓練查詢語句匹配的賬號中被所述網絡用戶選擇的賬號;
所述負樣本賬號包括:
向所述網絡用戶推薦的與所述訓練查詢語句匹配的賬號中未被所述網絡用戶選擇的賬號。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京搜狗科技發展有限公司,未經北京搜狗科技發展有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010973496.6/2.html,轉載請聲明來源鉆瓜專利網。





