[發(fā)明專利]基于多模型融合的核心工藝知識智能推送方法及系統(tǒng)有效
| 申請?zhí)枺?/td> | 201810539890.1 | 申請日: | 2018-05-30 |
| 公開(公告)號: | CN108846050B | 公開(公告)日: | 2022-01-21 |
| 發(fā)明(設(shè)計)人: | 周臣剛;張國勝;王科;徐寧;汪影;王頌菊;謝軍;魏大勇 | 申請(專利權(quán))人: | 重慶望江工業(yè)有限公司;北京宏博遠達科技有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/33;G06K9/62 |
| 代理公司: | 重慶志合專利事務(wù)所(普通合伙) 50210 | 代理人: | 胡榮琿;代嬋 |
| 地址: | 40007*** | 國省代碼: | 重慶;50 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 模型 融合 核心 工藝 知識 智能 推送 方法 系統(tǒng) | ||
本發(fā)明公開了一種基于多模型融合的核心工藝知識智能推送方法及系統(tǒng),將現(xiàn)有語料數(shù)據(jù)進行預(yù)處理后輸入分類算法模型進行預(yù)分類,并通過模型融合提升分類的效果,當(dāng)有用戶查詢或者有用戶反饋時,將用戶輸入與文本類別進行相似度計算,判斷關(guān)鍵字所屬的類別,取前k1個最相似的類,只在這幾類別進行檢索,對于每一類,在該類別中用輸入的關(guān)鍵字分別使用不同模型進行檢索,將之前的所有結(jié)果合并,使用BM25算法進行相關(guān)度排序,取前k2個結(jié)果,并使用Jaccard相似度去除結(jié)果中過于相似的文本。最后把結(jié)果返回給用戶,根據(jù)用戶的反饋,進一步調(diào)整用戶的關(guān)鍵詞模型,更好的擬合用戶的需求,以優(yōu)化下一次推送時的用戶推送效果與匹配程度。
技術(shù)領(lǐng)域
本發(fā)明涉及計算機技術(shù)領(lǐng)域,特別涉及一種基于多模型融合的核心工藝知識智能推送方法及系統(tǒng)。
背景技術(shù)
傳統(tǒng)信息檢索系統(tǒng)存在許多問題。在查詢訪方面,主要方法有布爾查詢、向量空間模型、概率模型等,各有優(yōu)缺點,但是單獨使用時精度不能達到最高,會有少部分不符合。在符合關(guān)鍵字的查詢結(jié)果中,由于語義的問題,同一關(guān)鍵字所指并不是同一事物,即雖然條目的關(guān)鍵詞符合檢索的關(guān)鍵詞,但是這部分信息是用戶不需要的。從搜索的結(jié)果看,這雖然考慮了信息的全面性,但是無法很好地契合搜索者的需求,導(dǎo)致搜索的精確度和效率下降。同時,關(guān)鍵字檢索的結(jié)果中可能出現(xiàn)兩個甚至多個結(jié)果相似或完全相似,這是用戶不希望看到的。最后,海量的數(shù)據(jù)嚴重拖慢了檢索速度,也加大了存儲空間,如何提高速度、節(jié)約空間,成為現(xiàn)代信息檢索的新問題。
單獨使用一個分類器的缺點:
fastText缺點:需要大量已標(biāo)注數(shù)據(jù)來訓(xùn)練。
Rocchio缺點:Rocchio假設(shè)訓(xùn)練數(shù)據(jù)是絕對正確的,但是語料難免會有誤差;語料不均衡會導(dǎo)致模型文件有偏差,樣本多的類更有優(yōu)勢;認為一個類別的文檔僅僅聚集在一個質(zhì)心的周圍,實際情況往往不是如此(這樣的數(shù)據(jù)稱為線性不可分的)。
多分類SVM缺點:由于此分類利用有向無環(huán)圖來阻止分類器,假如最一開始的分類器回答錯誤(明明是類別1的文章,它說成了5),那么后面的分類器是無論如何也無法糾正它的錯誤的(因為后面的分類器壓根沒有出現(xiàn)“1”這個類別標(biāo)簽),其實對下面每一層的分類器都存在這種錯誤向下累積的現(xiàn)象。
Jaccard系數(shù)-Knn缺點:元素的取值只能是0或者1,無法利用更豐富的信息。只記錄詞匯是否出現(xiàn),不記錄詞匯出現(xiàn)的頻數(shù)。這樣忽略了很多有價值的信息。
單獨使用一個檢索模型的缺點:
布爾模型缺點:它的檢索策略源于二值判定標(biāo)準,文獻要么相關(guān),要么不相關(guān),況且也沒有文檔分級的概念,難以提高檢索性能;雖然布爾表達式有確切的語義,但通常很難將用戶的信息需求轉(zhuǎn)換成布爾表達式,實際上很多用戶會發(fā)現(xiàn)很難用布爾表達式來表達他們的查詢要求。
向量空間模型缺點:相似度的計算量大,當(dāng)有新文檔加入時,則必須重新計算詞的權(quán)值。理論上不夠強,只是基于直覺的經(jīng)驗公式。各詞項實際上并不是完全獨立的,有很多字詞之間雖然沒有相同字或詞頻相差很多,但是有很大關(guān)系。
概率模型缺點:首先,對文本集的依賴性過強,需要把文獻分為相關(guān)的和不相關(guān)的集合,實際上這種模型沒有考慮索引詞在文檔中的頻率;其次,該模型存儲和計算的開銷很大,參數(shù)估計有一定的困難,文件和查詢的表達也比較困難。
發(fā)明內(nèi)容
本發(fā)明的目的是針對現(xiàn)有技術(shù)對應(yīng)的不足,提供一種基于多模型融合的核心工藝知識智能推送方法及系統(tǒng),其提高了檢索的精度。
本發(fā)明的目的是采用下述方案實現(xiàn)的:一種基于多模型融合的核心工藝知識智能推送方法,包括如下步驟:
1)文本分類:將所有文本進行預(yù)處理,然后將處理后的文本輸入分類器進行預(yù)分類,得到文本類別信息(類別信息為類別整體的模型向量表示);
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于重慶望江工業(yè)有限公司;北京宏博遠達科技有限公司,未經(jīng)重慶望江工業(yè)有限公司;北京宏博遠達科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810539890.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





