[發明專利]企業案例檢索方法、裝置、設備和存儲介質有效
| 申請號: | 202011643928.3 | 申請日: | 2020-12-31 |
| 公開(公告)號: | CN112685452B | 公開(公告)日: | 2021-08-10 |
| 發明(設計)人: | 范凌 | 申請(專利權)人: | 特贊(上海)信息科技有限公司 |
| 主分類號: | G06F16/2455 | 分類號: | G06F16/2455;G06F16/28;G06N20/00 |
| 代理公司: | 北京知果之信知識產權代理有限公司 11541 | 代理人: | 卜榮麗 |
| 地址: | 201203 上海市浦東新區中國(上海)*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 企業 案例 檢索 方法 裝置 設備 存儲 介質 | ||
本申請公開了一種企業案例檢索方法、裝置、設備和存儲介質。方法包括:接收檢索詞;基于所述檢索詞在預先設置的企業案例向量池中采用算法BM25進行檢索得到企業案例的第一召回結果排序;計算檢索詞向量與所述向量池中的每一個向量的余弦距離;根據每個余弦距離對向量池中的每個向量對應的企業案例樣本進行排序得到第二召回結果排序;將第一召回結果排序和第二召回結果排序進行綜合排序,得到企業案例的排序列表。本申請解決了現有技術檢索效果不理想的技術問題。
技術領域
本申請涉及計算機技術領域,具體而言,涉及一種企業案例檢索方法、裝置、設備和存儲介質。
背景技術
目前創意營銷領域的檢索系統,大多使用算法BM25進行檢索。使用概率統計的方式衡量檢索詞與文檔之間的相關性,主要計算檢索詞在文檔中出現的頻次以及文檔長度等特征。但是實際檢索得到的結果中,會有相當一部分檢索結果的案例與檢索詞其實并不相關,導致檢索的效果并不理想。
發明內容
本申請的主要目的在于提供一種企業案例檢索方法、裝置、設備和存儲介質,以解決上述問題。
為了實現上述目的,根據本申請的一個方面,提供了一種企業案例檢索方法,包括:
接收檢索詞;
基于所述檢索詞采用BM25算法進行檢索得到企業案例的第一召回結果排序;
將所述檢索詞通過案例檢索模型生成對應的檢索詞向量;
計算所述檢索詞向量與所述向量池中的每一個向量的余弦距離;
根據每個余弦距離對向量池中的每個向量對應的企業案例樣本進行排序得到第二召回結果排序;
將第一召回結果排序和第二召回結果排序進行綜合排序,得到企業案例的排序列表。
進一步的,接收檢索詞之前,所述方法還包括:
構建營銷領域的知識圖譜;
采集用戶在預定歷史時期內檢索過程中的相關數據;
基于所述知識圖譜和所述相關數據構建案例多任務學習模型,并采用所述知識圖譜和所述相關數據對所述案例多任務學習模型進行訓練。
進一步的,相關數據包括行為數據和檢索數據;
采集用戶檢索所述案例的行為數據,包括:
獲取用戶對所述案例的行為數據;以及所述案例在召回列表的排序位置;所述行為數據包含用戶對檢索結果的點擊、收藏和分享;
所述檢索數據包括:在埋點系統中采集得到的檢索詞、根據所述檢索詞得到的企業案例、所述企業案例和所述檢索詞的相關性。
進一步的,對于任意的一個案例,計算相關性包括:
統計點擊的時間;
計算距離當前的時間的差,以天為單位;
調整系數=被點擊的歷史時間與當前的時間點的差/365;
該點擊的影響因數=1-調整系數;
相關性取值=;
其中,xi為第i次被點擊的影響因數;n為點擊的總的次數。
進一步的,所述方法還包括:
獲取待識別的目標案例文本;
將所述待識別的目標案例文本輸入到預先訓練的案例多任務學習模型,得到所述待識別的目標案例文本的分類信息;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于特贊(上海)信息科技有限公司,未經特贊(上海)信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011643928.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種風電機座構架
- 下一篇:一種鐵氧體磁珠對LNA性能影響的預測方法





