[發明專利]基于多模型融合的核心工藝知識智能推送方法及系統有效
| 申請號: | 201810539890.1 | 申請日: | 2018-05-30 |
| 公開(公告)號: | CN108846050B | 公開(公告)日: | 2022-01-21 |
| 發明(設計)人: | 周臣剛;張國勝;王科;徐寧;汪影;王頌菊;謝軍;魏大勇 | 申請(專利權)人: | 重慶望江工業有限公司;北京宏博遠達科技有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/33;G06K9/62 |
| 代理公司: | 重慶志合專利事務所(普通合伙) 50210 | 代理人: | 胡榮琿;代嬋 |
| 地址: | 40007*** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 模型 融合 核心 工藝 知識 智能 推送 方法 系統 | ||
1.一種基于多模型融合的核心工藝知識智能推送方法,其特征在于,包括如下步驟:
1)將所有文本進行預處理,然后將處理后的文本輸入分類器進行預分類,得到文本類別信息;
2)計算查詢所在類別:當有用戶查詢時,先利用檢索算法進行檢索,然后將用戶輸入與檢索算法返回的多個帶有類別信息的文本分別進行相似度計算,判斷關鍵詞所屬的類別,取前k1個最相似的類別,只在這幾個類別進行檢索;
3)在前k1個最相似的類別中的每一個類別中用用戶檢索關鍵詞再次使用檢索算法進行檢索,得到前k1個最相似的類別對應的檢索結果;
4)將前k1個最相似的類別對應的檢索結果集合后,對所有檢索結果使用相關度算法進行相關度排序,取前k2個結果;并使用相似度算法去除結果中過于相似的文本,得到最終檢索結果,最后將最終檢索結果返回給用戶。
2.根據權利要求1所述的方法,其特征在于:還包括步驟5):將最終檢索結果返回給用戶后,監測用戶的反饋,根據用戶的反饋,在用戶下一次輸入相同的關鍵詞進行搜索時,使用調整算法調整用戶檢索關鍵詞權重,然后使用調整后的關鍵詞權重執行步驟2)、3)、4)進行新的一輪搜索,將調整后的結果返回給用戶。
3.根據權利要求2所述的方法,其特征在于:步驟5)中調整用戶的關鍵詞權重的調整算法采用Rocchio算法,公式為:
其中,是初始的查詢向量,是修改后的查詢向量,Dr和Dnr是已知的相關和不相關文檔集合,α、β及γ是上述三者的權重。
4.根據權利要求1所述的方法,其特征在于:步驟1)中使用Adaboost算法融合多種不同類型的基本分類器形成最終分類器,將處理后的數據輸入最終分類器進行預分類,得到類別信息;各個基本分類器包括Jaccard系數-Knn模型、fastText深度學習模型,Rocchio模型,多分類SVM模型;使用Adaboost算法融合多種不同類型的基本分類器的步驟包括:(1)輸入訓練數據,初始化訓練數據的權值分布;(2)訓練基本分類器:循環迭代多次,使用當前加權分布學習基本分類器,計算基本分類器在數據集上的誤差率,然后根據誤差率計算基本分類器在最終分類器中所占的權重,更新訓練數據的權值分布,用于下一次迭代;(3)各個基本分類器的訓練過程結束后,融合經過訓練的各個基本分類器,得到最終分類器。
5.根據權利要求1所述的方法,其特征在于:步驟3)中在前k1個最相似的類別中的每一個類別中均用用戶檢索關鍵詞分別使用多種不同的檢索算法進行檢索,然后將所有檢索結果集合后執行排序去重步驟,得到最終檢索結果;多種不同的檢索算法包括布爾檢索算法、向量空間模型、概率模型、語言模型。
6.根據權利要求1所述的方法,其特征在于:步驟2)計算查詢所在類別時根據用戶檢索關鍵詞先利用多種不同的檢索算法進行冗余檢索,然后將所有檢索結果集合后執行排序去重步驟,得到多個初步檢索結果即帶有類別信息的文本;多種不同的檢索算法包括布爾檢索算法、向量空間模型、概率模型、語言模型。
7.根據權利要求1所述的方法,其特征在于:步驟2)中相似度計算采用Jaccard相似度算法;步驟4)利用webService技術通過網絡將檢索結果返回給用戶;步驟4)使用Jaccard相似度算法去除結果中過于相似的文本;對結果使用BM25算法進行相關度排序,取前k2個結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶望江工業有限公司;北京宏博遠達科技有限公司,未經重慶望江工業有限公司;北京宏博遠達科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810539890.1/1.html,轉載請聲明來源鉆瓜專利網。





