[發明專利]基于搜索詞語義多垂域多意圖分層判定方法和系統在審
| 申請號: | 202110984280.4 | 申請日: | 2021-08-25 |
| 公開(公告)號: | CN113792116A | 公開(公告)日: | 2021-12-14 |
| 發明(設計)人: | 秦海龍 | 申請(專利權)人: | 北京庫睿科技有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/35;G06F40/30 |
| 代理公司: | 北京市鼎立東審知識產權代理有限公司 11751 | 代理人: | 陳佳妹 |
| 地址: | 100012 北京市朝陽區利*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 搜索詞 語義 多垂域多 意圖 分層 判定 方法 系統 | ||
本申請涉及基于搜索詞語義多垂域多意圖分層判定方法和系統,所示方法包括步驟1:依據互聯網服務建立用戶意圖分類體系;步驟2:針對用戶意圖分類體系訓練文本分類器;步驟3:基于文本分類器對用戶搜索請求進行文本分類,判定用戶搜索請求相關的意圖;步驟4:步驟3判定的意圖結合搜索請求語義和用戶歷史行為,從內容庫的多個信息源中進行不同相關服務或內容的召回和排序,實現用戶真實意圖的判定分析。可縮短用戶獲取服務的路徑,改善用戶搜索體驗。
技術領域
本公開涉及數據信息安全領域,尤其涉及一種基于搜索詞語義多垂域多意圖分層判定方法和系統。
背景技術
現有搜索引擎的流程通常為將搜索詞切分成若干詞匯,每個詞匯與內容庫中標題或者摘要進行匹配,然后根據與用戶詞匯的匹配程度進行排序,最后展示給用戶。
這種方法在搜索詞匹配時沒有考慮到用戶query的深層意圖以及之前的用戶行為,也沒有對內容庫中的內容根據用戶意圖進行系統的分類,直接用關鍵詞對所有內容進行匹配,由于沒有對用戶深層意圖和query的深層語義進行理解,很多時候很難找到用戶真正想觸達的內容。
發明內容
有鑒于此,本公開提出了一種基于搜索詞語義多垂域多意圖分層判定方法和系統。
為實現上述技術目的,本發明采取的技術方案為:
基于搜索詞語義多垂域多意圖分層判定方法,所述方法包括:、
步驟1:依據互聯網服務建立用戶意圖分類體系;
步驟2:針對用戶意圖分類體系訓練文本分類器;
步驟3:基于文本分類器對用戶搜索請求進行文本分類,判定用戶搜索請求相關的意圖;
步驟4:步驟3判定的意圖結合搜索請求語義和用戶歷史行為,從內容庫的多個信息源中進行不同相關服務或內容的召回和排序,實現用戶真實意圖的判定分析。
為優化上述技術方案,采取的具體措施還包括:
進一步地,步驟1中,所述用戶意圖分類體系分為兩層,第一層為互聯網服務的垂直領域,第二層為垂直領域下的用戶具體意圖。
進一步地,對于垂直領域,參考互聯網的應用分類名稱作為種子,統一整理成用戶意圖分類體系中的垂直領域;
對于每個垂直領域下的用戶具體意圖,通過抓取垂直領域分類下應用的服務名稱,對每一個服務名稱采用文本預訓練模型進行近義詞召回,并對所有詞進行詞義聚類后,整理得到垂直領域下的用戶具體意圖。
進一步地,步驟1中,還按照垂直領域和垂直領域下的用戶具體意圖對互聯網應用和互聯網應用中的服務或內容進行分類劃分。
進一步地,步驟2中,針對每個垂直領域和垂直領域下的每個意圖訓練文本分類器,分別用于判定文本是否屬于該垂直領域或意圖。
進一步地,步驟3中,基于文本分類器對每個用戶搜索請求進行兩次文本分類,判定用戶搜索請求相關的垂直領域及相關的意圖;
第一次文本分類中,應用垂直領域的文本分類器判定搜索請求(query)所屬的垂直領域,返回用戶搜索請求相關的多個垂直領域;
在第二次文本分類中,應用所述多個垂直領域下的所有意圖的文本分類器進行意圖判定,返回用戶搜索請求相關的多個意圖。
進一步地,步驟4所述的用戶歷史行為包括用戶以往對垂直領域、意圖和意圖下應用實體的使用情況。
本發明還公開一種基于搜索詞語義多垂域多意圖分層判定系統,所述系統包括:
用戶意圖分類體系建立模塊,用于依據互聯網服務建立用戶意圖分類體系;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京庫睿科技有限公司,未經北京庫睿科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110984280.4/2.html,轉載請聲明來源鉆瓜專利網。





