[發明專利]基于改進TF-IDF算法的全文檢索系統有效
| 申請號: | 201910787265.3 | 申請日: | 2019-08-25 |
| 公開(公告)號: | CN110619036B | 公開(公告)日: | 2023-07-18 |
| 發明(設計)人: | 俞佳慧;何新;馬軒;姜楠;王子龍;黃炎焱;項凱南 | 申請(專利權)人: | 南京理工大學 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/31;G06F16/34;G06F40/289;G06Q30/0601 |
| 代理公司: | 南京理工大學專利中心 32203 | 代理人: | 陳鵬 |
| 地址: | 210094 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 改進 tf idf 算法 全文 檢索系統 | ||
1.一種基于改進TF-IDF算法的全文檢索系統,其特征在于,包括索引域模塊、分詞器模塊、索引器模塊、檢索器模塊;其中:
索引域模塊根據業務需求進行設置,在索引和檢索時根據正確的域名進行檢索內容;所述的索引域模塊包括商品搜索和商家搜索,分別在商品主表和商家主表中檢索內容;索引域模塊的索引結構分為索引段、索引文檔、索引域和索引項四部分,其中索引項、索引文檔和索引段在創建索引時由系統自動生成,索引域由域名和被索引的內容項構成;
分詞器模塊用于根據詞庫對檢索條件進行分詞;所述的分詞器模塊選用IKAnalyzer分詞器,是一種基于Java的中文分詞包,采用正向迭代最細粒度切分算法,并結合詞庫進行分詞;
索引器模塊用于為業務數據源設定索引域權重、創建索引以及決定索引文檔的存儲方式;
檢索器模塊用于配置檢索器,解析檢索條件并生成語法樹,進行檢索和排序,將排序結果打包后通過接口返回給客戶端進行顯示;相似度評分采用改進的TF-IDF算法,對索引域的優先級設置權重;所述的檢索器模塊將收到客戶端經接口發送過來的查詢條件后,使用分詞器對其進行解析,再將分詞所得的關鍵詞按照規則構建布爾查詢語法樹;根據語法樹,檢索器向索引文件中進行匹配并獲得結果集,集合中的數據經過改進的TF-IDF算法評分后按得分高低進行排序,并將排序結果打包后通過接口返回給客戶端進行顯示。
2.根據權利要求1所述的基于改進TF-IDF算法的全文檢索系統,其特征在于:改進的TF-IDF算法是以TF-IDF算法為基礎,對索引域設置不同權重,TF-IDF算法的原理如下式所示:
式中ni,j為詞條ti在文檔dj中的出現頻次,nk,j為ti在所有文檔中出現的頻次和,D為索引庫中的文檔總數,{j:ti∈dj}為索引庫中包含ti的文檔數目;詞頻tf是指詞條在索引庫某條文檔中的出現頻率;逆文本頻率idf是指包含詞條的文檔數占所有文檔數的比重;
通過對詞頻tf與逆文本頻率idf的乘積即可獲得詞條ti與文檔dj的相似度評分;
在Lucene內部,相似度模型基于TF-IDF算法,其原理如(4)式所示:
式中q為用戶提供的錄入關鍵字匹配條件,d為匹配結果所在的文檔,t為經過分詞組件分詞后解析得出的詞條,td為Termt在文檔d中出現的頻率,idf為詞條的逆文本頻率,cN為評分因子,基于文檔中出現的查詢項個數確定,qN為各查詢條目的方差和,tB為詞條的權重,norm為標準化因子;
為相似度模型引入影響因子LocScore以反映停詞操作對詞條位置關系的影響,LocScore的計算方法為:
包含關鍵詞且未經過停詞過濾的文檔賦予更高的評分1,包含關鍵詞但有停詞過濾的文檔賦予稍低的評分0.7,從而反映詞條在位置上與文檔的相似性關系;
相似度模型引入基于樸素貝葉斯分類算法的影響因子SimScore以反映概率相關性對相似度評分的影響,其中貝葉斯公式如式(6)所示;模型中對于每個查詢項Q所匹配的文檔D,可分為相關文檔集R和非相關文檔集NR兩組,因此P(R|D)是文檔D屬于相關文檔集R的條件概率,P(NR|D)是文檔D屬于非相關文檔集NR的條件概率,當P(R|D)>P(NR|D)時,查詢項Q與文檔D是相關的;根據貝葉斯公式,可得出:
當時,查詢項Q與文檔D是相關的,且的值越大,文檔D的相關性越高;
定義文檔D為一組二元向量D=(d1,d2,…,dn),其中di=1表示關鍵詞在文檔中出現過,di=0表示關鍵詞未在文檔中出現根據貝葉斯分類所基于的屬性之間的條件獨立性假設,定義影響因子SimScore的計算方法如式(7)所示:
式中pi為關鍵詞i相關文檔集R中某篇文檔中出現的概率,si則為其在不相關文檔集NR中某篇文檔中出現的概率;
改進后的Lucene相似度模型為:
NewScore(q,d)=α×Score(q,d)+β×LocScore(q,d)+γ×SimScore(q,d)??(8)
式中α+β+γ=1。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京理工大學,未經南京理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910787265.3/1.html,轉載請聲明來源鉆瓜專利網。





