[發明專利]文章搜索方法、裝置及電子設備有效
| 申請號: | 201811223825.4 | 申請日: | 2018-10-19 |
| 公開(公告)號: | CN111078858B | 公開(公告)日: | 2023-06-09 |
| 發明(設計)人: | 潘岸騰 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06F16/335 | 分類號: | G06F16/335;G06F16/38 |
| 代理公司: | 北京博雅睿泉專利代理事務所(特殊普通合伙) 11442 | 代理人: | 余西西;馬佑平 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文章 搜索 方法 裝置 電子設備 | ||
本發明公開了一種文章搜索方法、裝置及電子設備。該方法包括:獲取用戶輸入的目標搜索詞的詞特征向量;獲取文章數據庫中包括的每篇文章的文章特征向量;根據預先訓練的文章搜索模型,對詞特征向量和文章特征向量進行處理,獲取文章數據庫的每篇文章的搜索預測值,以選取搜索預測值符合搜索條件的目標文章作為搜索結果提供給用戶。根據本發明,可以在用戶搜索文章時,向用戶提供符合用戶的行為特性并且與搜索詞的實際內容相關性較高的文章,更精準滿足用戶的文章搜索需求。
技術領域
本發明涉及搜索技術領域,更具體地,涉及一種文章搜索方法、裝置及電子設備。
背景技術
文章搜索功能是計算機軟件程序、移動終端應用(APP)中可支持的最基本的應用功能。
目前文章搜索功能的實現,通常是根據用戶輸入的搜索詞進行搜索,搜索到包括與該搜索詞匹配的關鍵詞的文章時,將該文章作為搜索結果提供給用戶。
但是,這種文章搜索方法并不能搜索到包括與搜索詞存在相關性的相關詞的文章,例如,用戶輸入搜索詞“聽歌”,可以搜索出包括“聽歌”這一關鍵詞的文章,但是,卻無法搜索出不包括“聽歌”但是包括與“聽歌”存在相關性的相關詞“音樂”或者“配樂”等的文章。
發明內容
本發明的一個目的是提供一種用于文章搜索的新技術方案。
根據本發明的第一方面,提供了一種文章搜索方法,其中,包括:
獲取用戶輸入的目標搜索詞的詞特征向量;
獲取文章數據庫中包括的每篇文章的文章特征向量;
根據預先訓練的文章搜索模型,對所述詞特征向量和所述文章特征向量進行處理,獲取所述文章數據庫的每篇文章的搜索預測值,以選取所述搜索預測值符合搜索條件的目標文章作為搜索結果提供給用戶。
可選地,所述獲取用戶輸入的目標搜索詞的詞特征向量的步驟包括:
獲取所述目標搜索詞的搜索分詞集合;
從已獲取的分詞特征向量集合中,獲取所述搜索分詞集合中包括每個搜索分詞的詞特征向量;
將所述搜索分詞集合中包括所有搜索分詞的詞特征向量得到的平均向量,作為所述目標搜索詞的詞特征向量。
可選地,所述方法還獲取搜索分詞特征向量集合的步驟,包括:
對文章數據庫中每篇文章進行分詞處理,得到該篇文章的文章分詞序列;
其中,所述文章分詞序列中包括根據在對應的文章中出現次序進行排序的、所述文章的所有分詞;
根據所獲取的全部所述文章分詞序列,獲取所述文章數據庫中每篇文章的每個所述分詞的詞特征向量,以構成所述分詞特征向量集合;
其中,所述每個分詞的詞特征向量具有預設數目的向量維度。
可選地,所述獲取文章數據庫中包括的每篇文章的文章特征向量的步驟包括:
根據所獲取的統計時段內所有用戶的歷史點擊文章行為記錄,獲取每個用戶的文章點擊序列;
其中,每個用戶的所述歷史點擊文章行為記錄包括所述用戶在所述統計時段內每次點擊文章的文章標識以及點擊時間;每個用戶的文章點擊序列中包括根據所述用戶的點擊先后次序進行排序的、在所述統計時段被所述用戶點擊的所有文章的文章標識;
根據所獲取的全部所述文章點擊序列,獲取所述文章數據庫中每篇文章的文章特征向量。
可選地,所述文章搜索模型提供模型系數集合,所述模型系數集合包括第一系數矩陣、第二系數矩陣、第三系數矩陣以及常數系數;
所述獲取每篇文章的搜索預測值的步驟包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811223825.4/2.html,轉載請聲明來源鉆瓜專利網。





