[發明專利]搜索請求響應方法、裝置、計算機設備及存儲介質在審
| 申請號: | 202211322683.3 | 申請日: | 2022-10-27 |
| 公開(公告)號: | CN115640445A | 公開(公告)日: | 2023-01-24 |
| 發明(設計)人: | 魯俊 | 申請(專利權)人: | 上海喜馬拉雅科技有限公司 |
| 主分類號: | G06F16/9532 | 分類號: | G06F16/9532;G06F40/242;G06F40/295;G06F16/36 |
| 代理公司: | 北京超凡宏宇專利代理事務所(特殊普通合伙) 11463 | 代理人: | 張欣欣 |
| 地址: | 201100 上海市*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 搜索 請求 響應 方法 裝置 計算機 設備 存儲 介質 | ||
本發明提供一種搜索請求響應方法、裝置、計算機設備及存儲介質,涉及計算機技術領域。所述方法,首先,獲取用戶搜索請求,用戶搜索請求包括用戶輸入的搜索文本;然后,利用預先訓練的實體識別模型和預先構建的詞典,獲得搜索文本中的有效實體詞;接著,基于預先構建的標準實體詞庫,獲得有效實體詞對應的標準實體詞;最后,根據標準實體詞,確定推送內容,以響應用戶搜索請求,從而降低了用戶非標準輸入對搜索引擎解析用戶意圖的影響,提高了用戶的搜索體驗。
技術領域
本發明涉及計算機技術領域,具體而言,涉及一種搜索請求響應方法、裝置、計算機設備及存儲介質。
背景技術
在搜索應用中,尤其是圖書、音頻、視頻等搜索引擎中,存在大量的作品的專有名詞,而用戶在輸入搜索文本時,表述方式可能與專有名詞不統一,例如多字、漏字、標點不一致、英文大小寫、數字和中文不統一等。
舉例來說,假設作品的專有名詞叫做“小明上學記一二三年級”,用戶輸入的搜索文本可能為“小明上學記123年級”,同樣地,假設作品的專有名稱是“俠客五六七”,用戶輸入的搜索文本可能為“俠客567”。
由于用戶輸入的搜索文本與作品的專有名詞的表述方式不一致,使得搜索引擎解析出的搜索文本中的實體詞不準確,在后續不能準確召回符合用戶意圖的內容,無法保障用戶的搜索體驗。
發明內容
為了克服現有技術的不足,本發明實施例提供了一種搜索請求響應方法、裝置、計算機設備及存儲介質。
本發明實施例的技術方案可以這樣實現:
第一方面,本發明實施例提供一種搜索請求響應方法,所述方法包括:
獲取用戶搜索請求,所述用戶搜索請求包括用戶輸入的搜索文本;
利用預先訓練的實體識別模型和預先構建的詞典,獲得所述搜索文本中的有效實體詞;
基于預先構建的標準實體詞庫,獲得所述有效實體詞對應的標準實體詞;
根據所述標準實體詞,確定推送內容,以響應所述用戶搜索請求。
可選地,所述利用預先訓練的實體識別模型和預先構建的詞典,獲得所述搜索文本中的有效實體詞的步驟包括:
將所述搜索文本輸入所述實體識別模型,得到第一實體詞;
將所述搜索文本輸入所述詞典,得到第二實體詞;
對所述第一實體詞和所述第二實體詞進行融合去重處理,得到所述有效實體詞。
可選地,所述標準實體詞庫包括多個候選實體詞,所述基于預先構建的標準實體詞庫,獲得所述有效實體詞對應的標準實體詞的步驟包括:
計算所述有效實體詞與每個所述候選實體詞的相似度,并將與所述有效實體詞的相似度最大的所述候選實體詞作為待定實體詞;
若所述待定實體詞與所述有效實體詞的相似度大于預設閾值,則將所述待定實體詞作為所述有效實體詞對應的標準實體詞。
可選地,所述計算所述有效實體詞與每個所述候選實體詞的相似度的步驟包括:
針對每個所述候選實體詞,統計所述候選實體詞中目標字符的個數,所述目標字符為所述候選實體詞和所述有效實體詞中均存在的字符;
若所述候選實體詞的總字符數小于所述有效實體詞的總字符數,則將所述目標字符的個數與所述候選實體詞的總字符數的比值,作為所述候選實體詞與所述有效實體詞的相似度;
若所述候選實體詞的總字符數不小于所述有效實體詞的總字符數,則將所述目標字符的個數與所述有效實體詞的總字符數的比值,作為所述候選實體詞與所述有效實體詞的相似度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海喜馬拉雅科技有限公司,未經上海喜馬拉雅科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211322683.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種溫度自補償可消除降壓渦流的螺旋噴射節流裝置
- 下一篇:一種輕量化曲軸





