[發明專利]基于項集權值比較的模式挖掘和混合擴展的文本檢索方法有效

申請號：	201811649207.6	申請日：	2018-12-30
公開（公告）號：	CN109684465B	公開（公告）日：	2022-12-06
發明（設計）人：	黃名選	申請（專利權）人：	廣西財經學院
主分類號：	G06F16/332	分類號：	G06F16/332
代理公司：	廣西南寧公平知識產權代理有限公司 45104	代理人：	黃春蓮
地址：	530000 廣西壯族***	國省代碼：	廣西;45
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	基于集權比較模式挖掘混合擴展文本檢索方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明公開了基于項集權值比較的模式挖掘和混合擴展的文本檢索方法，首先用戶查詢首次檢索得到初檢前列文檔，構建并預處理初檢相關文檔集，通過比較項集權值挖掘含有原查詢詞項的頻繁項集，通過項集中最小項目的項集權值和最大項目的項集權值的比值、項集的項目權值最大者或最大項目權值對候選項集剪枝，通過計算卡方值和置信度值從頻繁項集提取含有原查詢詞項的關聯規則，將那些后件是原查詢詞項的關聯規則前件以及前件是原查詢詞項的關聯規則后件作為擴展詞，擴展詞與原查詢詞組合為新查詢再次檢索文檔集得到最終檢索結果文檔返回給用戶。本發明采用基于項集權值比值的剪枝和混合擴展技術，檢索性能得到改善和提升，應用價值高，推廣前景廣闊。

技術領域

本發明屬于信息檢索領域，具體基于項集權值比較的模式挖掘和混合擴展的文本檢索方法。

背景技術

當前，網絡信息資源已經成為了隱含巨大經濟價值和研究價值的網絡大數據，如何高效、準確地從網絡大數據里找到更多所需的信息，一直是信息檢索領域研究的熱點問題。搜索引擎在一定程度上緩解了人們在互聯網檢索信息的困難，但是，現有的搜索引擎或者web信息檢索系統往往是基于關鍵詞機械式符號匹配的檢索，很難避免信息過載和詞不匹配等問題，例如，查詢詞是“電腦”，盡管“計算機”描述的是相同的含義，但是，“電腦”、“計算機”在信息檢索系統里被認為是不同的檢索詞，這樣，僅僅含有關鍵詞“計算機”，而不含“電腦”的文檔不能被檢索出來，這是因為詞不匹配的原因。

發明內容

為了解決上述問題，本發明提出基于項集權值比較的模式挖掘和混合擴展的文本檢索方法，采用基于項集權值比值的剪枝和混合擴展方法，能挖掘出與原查詢相關的擴展詞，能解決信息檢索中查詢主題漂移和詞不匹配問題，提高和改善文本信息檢索性能，具有較好的應用價值和推廣前景。

本發明的技術方案如下：

基于項集權值比較的模式挖掘和混合擴展的文本檢索方法，包括下列步驟：

步驟1.用戶查詢首次檢索文檔得到初檢結果，用戶對初檢結果進行相關反饋判斷得到初檢相關文檔集，預處理所述相關文檔集，具體步驟如下：

(1.1)用戶查詢首次檢索文檔集得到初檢前列文檔。

(1.2)用戶對初檢前列文檔進行相關性判斷得到初檢相關文檔，構建初檢相關文檔集。

(1.3)預處理初檢相關文檔集，計算初檢相關文檔集特征詞權值，構建文檔索引庫和特征詞庫。

初檢相關文檔集預處理要根據不同語種采用相應的預處理方法，例如，對于英文文檔，預處理方法是：去除英文停用詞，采用Porter程序(詳細見網址：http://tartarus.org/martin/PorterStemmer)提取得到英文特征詞詞干，計算英文特征詞權值；對于中文文檔，預處理方法是：去除中文停用詞，對中文文檔進行分詞后提取中文特征詞，計算中文特征詞權值。

所述特征詞權值的計算公式，如式(1)所示的計算公式。

式(1)中，w_ij表示文檔d_i中特征詞t_j的權值，tf_j,_i表示特征詞t_j在文檔d_i中的詞頻，普遍將tf_j,_i進行標準化處理，所述標準化處理是指將文檔d_i中每個特征詞所述的tf_j,_i除以文檔d_i的最大詞頻，idf_j是逆文檔頻度(Inverse Document Frequency)。