[發明專利]一種數據處理方法和相關裝置有效
| 申請號: | 201611110268.6 | 申請日: | 2016-12-02 |
| 公開(公告)號: | CN108153792B | 公開(公告)日: | 2023-04-18 |
| 發明(設計)人: | 彭正超;安偉亭;魏虎;李鵬飛;張建鋒 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06F16/9538 | 分類號: | G06F16/9538;G06F40/289;G06F40/30;G06F16/9535;G06Q30/0601 |
| 代理公司: | 北京三友知識產權代理有限公司 11127 | 代理人: | 李輝 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 數據處理 方法 相關 裝置 | ||
1.一種數據處理方法,其特征在于,所述方法包括:
獲取目標語義單元,所述目標語義單元為一個用于搜索的搜索語義單元;
將所述目標語義單元劃分得到多個分詞;
根據分詞搜索得到的搜索結果中資源所屬類目的數量,以及根據分詞搜索得到的搜索結果中資源的所屬類目與根據所述目標語義單元搜索得到的搜索結果中資源的所屬類目之間重合度確定出所述目標語義單元的核心詞;
將根據從所述多個分詞中確定出的核心詞搜索得到的搜索結果作為根據所述目標語義單元搜索得到的搜索結果;
所述方法還包括:根據第三資源對應的特征值與所述第三資源所屬類目的平均特征值確定出所述第三資源的特征值得分;若所述第三資源為具有周期時效性的資源,根據所述第三資源的到期時間確定所述第三資源的加權分;根據所述資源集合的待排序資源中屬于所述第三資源所屬類目的數量,以及所述資源集合的待排序資源所屬類目的總數確定出多樣性得分;根據所述第三資源對應的CVR、CTR、特征值得分、加權分和多樣性得分,確定出所述第三資源對應的排序得分;其中,所述第三資源為資源集合中的任意一個待排序資源;所述資源集合為搜索結果或待推薦資源。
2.根據權利要求1所述的方法,其特征在于,在所述將所述目標語義單元劃分得到多個分詞之前,還包括:
若所述目標語義單元的搜索結果中資源數量少于第一閾值,或者所述目標語義單元的字符長度多于第二閾值,執行所述將所述目標語義單元劃分得到多個分詞的步驟。
3.根據權利要求1或2所述的方法,其特征在于,第一分詞為所述多個分詞中任意一個分詞,所述根據分詞搜索得到的搜索結果中資源所屬類目的數量,以及根據分詞搜索得到的搜索結果中資源的所屬類目與根據所述目標語義單元搜索得到的搜索結果中資源的所屬類目之間重合度確定出所述目標語義單元的核心詞,包括:
獲取所述第一分詞在歷史搜索行為中用于搜索的次數、所述第一分詞搜索得到的資源數量,以及所述第一分詞在歷史搜索行為中與其他詞共同出現的次數;
根據所述第一分詞在歷史搜索行為中用于搜索的次數、所述第一分詞搜索得到的資源數量、所述第一分詞在歷史搜索行為中與其他詞共同出現的次數、根據所述第一分詞搜索得到的搜索結果中資源所屬類目的數量,以及根據所述第一分詞搜索得到的搜索結果中資源的所屬類目與根據所述目標語義單元搜索得到的搜索結果中資源的所屬類目之間重合度計算所述第一分詞的核心詞得分;
若所述第一分詞的核心詞得分處于所述多個分詞中各分詞的核心詞得分最高的前N位,將所述第一分詞確定為所述目標語義單元的核心詞。
4.根據權利要求1所述的方法,其特征在于,在將從所述多個分詞中確定出的核心詞所對應的搜索結果作為所述目標語義單元的搜索結果之后,還包括:
若根據所述目標語義單元搜索得到的搜索結果中資源的數量未滿足第三閾值,根據所述目標語義單元進行擴充,得到擴充語義單元,所述擴充語義單元為搜索語義單元;
將根據所述擴充語義單元搜索得到的搜索結果作為根據所述目標語義單元搜索得到的搜索結果。
5.根據權利要求4所述的方法,其特征在于,第一資源為根據所述目標語義單元搜索得到的搜索結果中的任意一個資源,所述根據所述目標語義單元進行擴充,得到擴充語義單元,包括:
若能夠根據第一語義單元搜索得到所述第一資源,將所述第一語義單元作為所述擴充語義單元,所述第一語義單元為一個搜索語義單元;或者,
若能夠根據第二語義單元搜索得到第二資源,將所述第二語義單元作為所述擴充語義單元,所述第二語義單元為一個搜索語義單元,所述第二資源為與所述第一資源具有相似性的資源。
6.根據權利要求4所述的方法,其特征在于,所述根據所述目標語義單元進行擴充,得到擴充語義單元,包括:
將與所述目標語義單元的編輯距離小于第四閾值的第三語義單元作為所述擴充語義單元,所述第三語義單元為一個搜索語義單元;或者,
將與所述目標語義單元的詞義相似度小于第五閾值的第四語義單元作為所述擴充語義單元,所述第四語義單元為一個搜索語義單元。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611110268.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種資源推薦方法和相關裝置
- 下一篇:一種原始數據處理方法





