[發明專利]基于情報數據的文本檢索分類方法、系統及存儲介質有效
| 申請號: | 202010048074.8 | 申請日: | 2020-01-16 |
| 公開(公告)號: | CN111259145B | 公開(公告)日: | 2023-05-12 |
| 發明(設計)人: | 廖宏;楊程;覃琳;梁暉;陳國南;黃云 | 申請(專利權)人: | 廣西計算中心有限責任公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/31;G06F40/242 |
| 代理公司: | 深圳市科吉華烽知識產權事務所(普通合伙) 44248 | 代理人: | 胡吉科 |
| 地址: | 530022 廣西壯*** | 國省代碼: | 廣西;45 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 情報 數據 文本 檢索 分類 方法 系統 存儲 介質 | ||
1.一種基于情報數據的文本檢索分類方法,其特征在于,包括以下步驟:
對OCR識別出來的文檔進行采集,得到非結構化文檔,并將所述文檔存入數據庫;
通過人工或機器自動生成關鍵詞字典,并對所述關鍵詞字典進行歸類;
使用已分類的關鍵詞字典對所述文檔進行處理,基于關鍵詞生成倒排索引,其中,在生成倒排索引時,增加每個所述關鍵詞所在的位置信息;
根據所述關鍵詞所在的分類對所述文檔進行分類標注,并將得到的分類結果存入數據庫;
對所述分類結果通過機器學習和/或人工標注方式生成新的詞匯,并對新的詞匯重新進行分類,將所述新的詞匯存入所述關鍵詞字典;
所述方法還包括:
在接收到用戶基于待查詢關鍵詞的查詢請求時,基于所述關鍵詞字典計算所述待查詢關鍵詞的相關度,將所述待查詢關鍵詞的相關度乘以位置相關的權重,所述位置相關的權重基于所述待查詢關鍵詞所在的位置信息獲得;
根據乘以位置相關的權重后的待查詢關鍵詞的相關度,并基于預設的打分公式對數據庫中的文檔進行全文檢索排序,并將檢索結果歸類到所述待查詢關鍵詞所在的類別;
將檢索結果呈現給用戶;
所述打分公式為:
score(q,d)=distance(q,d)×querNorm(q)×∑tinq(tf(tind)×idf(t)2×t.getBost()×norm(t,d));
其中,distance(q,d)為打分參數;
queryNorm(q)為計算每個查詢條目的方差和;
t∫(tind)為Term?t在文檔d中出現的詞頻;
idf(t)為Term?t在幾篇文檔中出現過;
t.getBost()為查詢語句中每個詞的權重;
norm(t,d)的含義為標準化因子。
2.根據權利要求1所述的基于情報數據的文本檢索分類方法,其特征在于,所述distance(q,d)=N(q,d)/Π(qfirst-qlast),其中,
N(q,d):待查詢關鍵字組合q在文檔d中出現的次數;
∑(qfirst-q1ast):待查詢關鍵詞在文檔中任意一組的位置間距求和;
qfirst:每組關鍵字中第一個詞的位置;
qlast:每組關鍵字中最后一個詞的位置。
3.根據權利要求1所述的基于情報數據的文本檢索分類方法,其特征在于,位置相關的關鍵詞特征提取公式為:
D(q)=(N(q,d)/∑(qfirst-q1ast))+P(q,d);
其中:
N(q,d):待查詢關鍵字組合q在文檔d中出現的次數;
D(q):為某個關鍵字組合的特征向量;
P(q,d):待查詢關鍵字q組合在文檔d中出現的次數;
∑(qfirst-qlast):待查詢關鍵字組在文檔中任意一組的位置間距求和;
qfirst:每組關鍵字中第一個詞的位置;
qlast:每組關鍵字中最后一個詞的位置;
P(q):帶查詢關鍵字在字典中的位置。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣西計算中心有限責任公司,未經廣西計算中心有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010048074.8/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種大通量微量元素分析儀緩沖支撐裝置
- 下一篇:一種旺草多氧片及其制備方法
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





