[發明專利]基于情報數據的文本檢索分類方法、系統及存儲介質有效
| 申請號: | 202010048074.8 | 申請日: | 2020-01-16 |
| 公開(公告)號: | CN111259145B | 公開(公告)日: | 2023-05-12 |
| 發明(設計)人: | 廖宏;楊程;覃琳;梁暉;陳國南;黃云 | 申請(專利權)人: | 廣西計算中心有限責任公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/31;G06F40/242 |
| 代理公司: | 深圳市科吉華烽知識產權事務所(普通合伙) 44248 | 代理人: | 胡吉科 |
| 地址: | 530022 廣西壯*** | 國省代碼: | 廣西;45 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 情報 數據 文本 檢索 分類 方法 系統 存儲 介質 | ||
本發明公開一種基于情報數據的文本檢索分類方法、系統及存儲介質,方法包括:對OCR識別出來的文檔進行采集,得到非結構化文檔,并將文檔存入數據庫;通過人工或機器自動生成關鍵詞字典,并對關鍵詞字典進行歸類;使用已分類的關鍵詞字典對文檔進行處理,基于關鍵詞生成倒排索引,其中,在生成倒排索引時,增加每個所述關鍵詞所在的位置信息;根據關鍵詞所在的分類對文檔進行分類標注,并將得到的分類結果存入數據庫;對分類結果通過機器學習和/或人工標注方式生成新的詞匯,并對新的詞匯重新進行分類,將新的詞匯存入所述關鍵詞字典。本發明在生產索引的時候,增加每個關鍵字所在的位置信息,因加入了位置相關度信息,使得分類更準確。
技術領域
本發明涉及情報檢索技術領域,尤其涉及一種基于情報數據的文本檢索分類方法、系統及存儲介質。
背景技術
目前文本分類的方法有很多,基于統計的分類方法是通過模型對文本數據進行分類,分類性能比較好的方法有KNN、SVM等,但是這類方法有局限性,比如語料不全、訓練樣本的數量不夠或者質量不佳等都會影響文本的分類效果。此外,在資料搜索引擎中,目前lucene搜索引擎的核心文檔打分算法沒有考慮關鍵詞在文檔中的位置,當用戶搜索多個關鍵詞組合時,這個算法不會考慮關鍵詞的順序,比如“中國北京”兩個關鍵詞,它只要出現次數多打分就越高,但實際的文檔出現了大量的“中國”關鍵詞,而且“北京”只出現少量,而且都跟“中國”這個關鍵詞離得很遠,這樣的文檔打分高,反而連續出現“北京中國”,但頻次不高的文檔打分低,結果就不符合用戶的期望,因此,現有的檢索分類方法不準確。
發明內容
本發明的目的是提出了一種基于情報數據的文本檢索分類方法、系統及存儲介質,以解決原有打分算法位置不相關的問題,提高檢索分類的準確性。
為實現上述目的,本發明提供的一種基于情報數據的文本檢索分類方法,包括以下步驟:
對OCR識別出來的文檔進行采集,得到非結構化文檔,并將所述文檔存入數據庫;
通過人工或機器自動生成關鍵詞字典,并對所述關鍵詞字典進行歸類;
使用已分類的關鍵詞字典對所述文檔進行處理,基于關鍵詞生成倒排索引,其中,在生成倒排索引時,增加每個所述關鍵詞所在的位置信息;
根據所述關鍵詞所在的分類對所述文檔進行分類標注,并將得到的分類結果存入數據庫;
對所述分類結果通過機器學習和/或人工標注方式生成新的詞匯,并對新的詞匯重新進行分類,將所述新的詞匯存入所述關鍵詞字典。
其中,所述方法還包括:
在接收到用戶基于待查詢關鍵詞的查詢請求時,基于所述關鍵詞字典計算所述待查詢關鍵詞的相關度,將所述待查詢關鍵詞的相關度乘以位置相關的權重,所述位置相關的權重基于所述待查詢關鍵詞所在的位置信息獲得;
根據乘以位置相關的權重后的待查詢關鍵詞的相關度,并基于預設的打分公式對數據庫中的文檔進行全文檢索排序,并將檢索結果歸類到所述待查詢關鍵詞所在的類別;
將檢索結果呈現給用戶。
其中,所述打分公式為:
score(q,d)=distance(q,d)×queryNorm(q)×
∑tinq(t∫(tind)×idf(t)2×t.getBost()×norm(t,d);
其中,distance(q,d)為打分參數;
queryNorm(q)為計算每個查詢條目的方差和;
t∫(tind)為Term?t在文檔d中出現的詞頻;
idf(t)為Term?t在幾篇文檔中出現過;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣西計算中心有限責任公司,未經廣西計算中心有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010048074.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種大通量微量元素分析儀緩沖支撐裝置
- 下一篇:一種旺草多氧片及其制備方法
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





