[發明專利]基于改進TF-IDF算法的全文檢索系統有效
| 申請號: | 201910787265.3 | 申請日: | 2019-08-25 |
| 公開(公告)號: | CN110619036B | 公開(公告)日: | 2023-07-18 |
| 發明(設計)人: | 俞佳慧;何新;馬軒;姜楠;王子龍;黃炎焱;項凱南 | 申請(專利權)人: | 南京理工大學 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/31;G06F16/34;G06F40/289;G06Q30/0601 |
| 代理公司: | 南京理工大學專利中心 32203 | 代理人: | 陳鵬 |
| 地址: | 210094 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 改進 tf idf 算法 全文 檢索系統 | ||
本發明公開了一種基于改進IF?IDF算法的全文檢索系統,該系統由索引域模塊、分詞器模塊、索引器模塊、檢索器模塊組成。本發明采用商品搜索和商家搜索兩類搜索,搜索方式多樣;采用IKAnalyzer分詞器,分詞速度快、綜合性能好;采用能根據業務需求設置權重的索引器,更加人性化;采用改進的TF?IDF算法進行檢索,算法性能好,準確率高。
技術領域
本發明涉及全文檢索技術領域,特別是一種基于改進TF-IDF算法的全文檢索系統。
背景技術
面對格式多樣的非結構化數據,尤其在其數據量較大的情況下,傳統方法需要花費大量的時間,這時,全文檢索技術應運而生。全文檢索技術的實現基于全文檢索理論之上,對于格式多樣的非結構化數據,它通過對數據源重新組織使之具有一定結構,再對其進行搜索,從而能達到提高搜索速度的效果。
Lucene是一套由Apache軟件基金會4jakarta項目組所提供和支持的一款開源全文檢索引擎工具包,它并不是一個完整的全文檢索引擎,而是一個全文檢索引擎的架構,提供了完整的查詢引擎和索引引擎,以及部分文本分析引擎。
采用相似度模型對符合條件的檢索結果進行評分是全文檢索系統的關鍵一環,根據對應的相似度模型和預先設定的約束,對每條結果對應查詢條件的相似程度進行評分,并將結果按照得分高低排序,以優先返回用戶更期望看到的結果。
Lucene使用的是向量空間模型(Vector?Space?Model,VSM)。向量空間模型把對數據相似度的處理簡化為向量空間中的向量運算,并以空間上的相似度表達兩條數據在各屬性維度上的相似度,直觀易懂。該模型通常包括如下主要屬性:
Term:向量空間模型通常將一個數據文檔通過分詞組建分為N個索引項,每個索引項可以使用Term表示,對于電商系統則可用Term表示所有每一條數據的被索引字段經分詞后的索引項Term1、Term2、...Termn,可簡寫為Ti。
Document:Document可代表一個文檔,因此每一條數據經過分詞后都可由Document={Term1,Term2,...,Termn}表示為空間向量,可簡寫為Di。
Query:代表用戶的查詢條件,經過分詞后可由Query={Terma,Termb,Termc}表示為空間向量,可簡寫為Q。
W:每一個Term都有所對應的權重W,故每個空間向量都有其對應的權重向量
Cos(Q,Di):兩個空間向量之間的余弦距離,向量空間模型中可以使用它表示兩空間向量的相似程度。通過計算各空間向量的余弦值可以獲得一個集合{Cos(Q,D1),Cos(Q,D2),...,Cos(Q,Dn)},在集合中,哪個余弦值大則對應的文檔與查詢條件的相關性越高,依法找到相似度越大的文檔便是越符合用戶預期的結果。
在Lucene內部,相似度模型基于現有的TF-IDF算法,加入了額外的影響因子,可以應用多數場景,但是仍舊曾在一些問題:
1)對于因缺乏對詞條在文檔中出現位置信息的考慮造成的搜索準確率下降問題,一方面文檔不同的索引域的重要性不同,如商品名稱應具有更高的搜索優先級、特產種類優先級過高則會降低文檔的區分度,而算法未考慮關鍵詞所在索引域不同對評分的影響;另一方面,更重要的是,文檔經系統分詞器停詞操作后可能導致獲得的新關鍵詞的語義信息改變,進而獲得預期以外的評分,而算法未考慮停詞操作對文檔評分的影響。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京理工大學,未經南京理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910787265.3/2.html,轉載請聲明來源鉆瓜專利網。





