[發(fā)明專利]一種數(shù)據(jù)處理方法及裝置在審
| 申請?zhí)枺?/td> | 202010973496.6 | 申請日: | 2020-09-16 |
| 公開(公告)號: | CN112052395A | 公開(公告)日: | 2020-12-08 |
| 發(fā)明(設計)人: | 嚴浩;宮兆漢;彭君睿;陳煒鵬;許靜芳 | 申請(專利權)人: | 北京搜狗科技發(fā)展有限公司 |
| 主分類號: | G06F16/9535 | 分類號: | G06F16/9535;G06N20/00 |
| 代理公司: | 北京集佳知識產(chǎn)權代理有限公司 11227 | 代理人: | 儲倩 |
| 地址: | 100084 北京市海淀區(qū)中關*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 數(shù)據(jù)處理 方法 裝置 | ||
1.一種數(shù)據(jù)處理方法,其特征在于,所述方法包括:
獲取第一查詢語句,并確定所述第一查詢語句的特征向量;
獲取多個自媒體賬號中每個自媒體賬號分別對應的特征向量;
根據(jù)所述第一查詢語句的特征向量、以及所述多個自媒體賬號中每個自媒體賬號分別對應的特征向量,確定每個自媒體賬號和所述第一查詢語句的匹配程度;
根據(jù)所述每個自媒體賬號和所述第一查詢語句的匹配程度,對所述多個自媒體賬號進行排序;
輸出排序靠前的第一數(shù)目個自媒體賬號的信息。
2.根據(jù)權利要求1所述的方法,其特征在于,所述多個自媒體賬號包括第一賬號,所述第一賬號對應的特征向量,根據(jù)所述第一賬號的賬號描述信息和/或所述第一賬號歷史發(fā)布的內(nèi)容確定。
3.根據(jù)權利要求1所述的方法,其特征在于,所述多個自媒體賬號包括第一賬號,所述第一賬號和所述第一查詢語句的匹配程度,包括:
所述第一賬號的特征向量和所述第一查詢語句的特征向量的余弦相似度。
4.根據(jù)權利要求1-3任意一項所述的方法,其特征在于,所述多個自媒體賬號包括第一賬號,所述第一賬號和所述第一查詢語句的匹配程度,通過如下方式確定:
將所述第一賬號的特征向量和所述第一查詢語句的特征向量輸入預先訓練的機器學習模型,得到所述第一賬號和所述第一查詢語句的匹配程度;其中:
所述機器學習模型用于根據(jù)所述第一賬號的特征向量和所述第一查詢語句的特征向量,得到所述第一賬號和所述第一查詢語句的匹配程度。
5.根據(jù)權利要求4所述的方法,其特征在于,所述機器學習模型,根據(jù)訓練查詢語句的特征向量、正樣本賬號的特征向量以及負樣本賬號的特征向量訓練得到,其中,所述正樣本賬號與所述訓練查詢語句的匹配程度,高于所述負樣本賬號與所述訓練查詢語句的匹配程度。
6.根據(jù)權利要求5所述的方法,其特征在于,
所述正樣本賬號包括:
向網(wǎng)絡用戶推薦的與所述訓練查詢語句匹配的賬號中被所述網(wǎng)絡用戶選擇的賬號;
所述負樣本賬號包括:
向所述網(wǎng)絡用戶推薦的與所述訓練查詢語句匹配的賬號中未被所述網(wǎng)絡用戶選擇的賬號。
7.根據(jù)權利要求5所述的方法,其特征在于,所述正樣本賬號和所述負樣本數(shù)據(jù)為向網(wǎng)絡用戶推薦的與所述訓練查詢語句匹配的賬號,所述負樣本賬號的排序位置在所述正樣本賬號的排序位置之后,其中:在向所述網(wǎng)絡用戶推薦與所述訓練查詢語句匹配的賬號時,對推薦的所述賬號按照與所述訓練查詢語句的匹配程度由高到低進行排序。
8.一種數(shù)據(jù)處理裝置,其特征在于,所述裝置包括:
第一獲取單元,用于獲取第一查詢語句,并確定所述第一查詢語句的特征向量;
第二獲取單元,用于獲取多個自媒體賬號中每個自媒體賬號分別對應的特征向量;
確定單元,用于根據(jù)所述第一查詢語句的特征向量、以及所述多個自媒體賬號中每個自媒體賬號分別對應的特征向量,確定每個自媒體賬號和所述第一查詢語句的匹配程度;
排序單元,用于根據(jù)所述每個自媒體賬號和所述第一查詢語句的匹配程度,對所述多個自媒體賬號進行排序;
輸出單元,用于輸出排序靠前的第一數(shù)目個自媒體賬號的信息。
9.一種數(shù)據(jù)處理裝置,其特征在于,包括有存儲器,以及一個或者一個以上的程序,其中一個或者一個以上程序存儲于存儲器中,且經(jīng)配置以由一個或者一個以上處理器執(zhí)行所述一個或者一個以上程序包含用于進行以下操作的指令:
獲取第一查詢語句,并確定所述第一查詢語句的特征向量;
獲取多個自媒體賬號中每個自媒體賬號分別對應的特征向量;
根據(jù)所述第一查詢語句的特征向量、以及所述多個自媒體賬號中每個自媒體賬號分別對應的特征向量,確定每個自媒體賬號和所述第一查詢語句的匹配程度;
根據(jù)所述每個自媒體賬號和所述第一查詢語句的匹配程度,對所述多個自媒體賬號進行排序;
輸出排序靠前的第一數(shù)目個自媒體賬號的信息。
10.一種計算機可讀介質(zhì),其上存儲有指令,當由一個或多個處理器執(zhí)行時,使得裝置執(zhí)行權利要求1至7任意一項所述的方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京搜狗科技發(fā)展有限公司,未經(jīng)北京搜狗科技發(fā)展有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010973496.6/1.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)處理設備,數(shù)據(jù)處理方法,和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理電路、數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法、數(shù)據(jù)處理控制方法
- 數(shù)據(jù)處理設備、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法及計算機可讀取的記錄介質(zhì)
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法以及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法以及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序





