[發(fā)明專利]一種中醫(yī)古籍文獻檢索系統(tǒng)有效
| 申請?zhí)枺?/td> | 202310189562.4 | 申請日: | 2023-03-02 |
| 公開(公告)號: | CN115858739B | 公開(公告)日: | 2023-05-02 |
| 發(fā)明(設計)人: | 張麗君;丁侃;王榮梅 | 申請(專利權(quán))人: | 中國中醫(yī)科學院中國醫(yī)史文獻研究所 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F40/30;G06F40/284;G06F18/22 |
| 代理公司: | 北京翔石知識產(chǎn)權(quán)代理事務所(普通合伙) 11816 | 代理人: | 李勇 |
| 地址: | 100000 北*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 中醫(yī) 古籍 文獻 檢索系統(tǒng) | ||
1.一種中醫(yī)古籍文獻檢索系統(tǒng),其特征在于,包括:
獲取模塊,用以獲取各文獻的關鍵詞,以及獲取搜索詞;
儲存模塊,其與所述獲取模塊相連,包括互相連接的儲存單元和計算單元,其中,
所述儲存單元包括儲存有標準詞的標準詞庫和對所述關鍵詞進行儲存的搜索詞庫;
所述計算單元用以計算標準詞的詞向量和關鍵詞的詞向量并基于計算結(jié)果確定對關鍵詞的處理方式;
中控模塊,其分別與所述獲取模塊和所述儲存模塊相連,包括互相連接的第一分析單元和第二分析單元,其中,
所述第一分析單元用以計算任一文獻中各所述關鍵詞的頻率,并根據(jù)各關鍵詞的頻率與頻率標準的頻率比對結(jié)果確定各關鍵詞的級別及對應的比例系數(shù),并根據(jù)該文獻中第一級別關鍵詞的數(shù)量確定對第一比例系數(shù)的修正方式;
所述第二分析單元用以根據(jù)所述搜索詞與搜索詞庫中的關鍵詞的比對結(jié)果確定是否需要對搜索詞進行同義替換,以及根據(jù)搜索詞的數(shù)量確定對文獻的檢索方式,并在檢索方式為第二檢索方式時計算文獻定位參量以對文獻進行降序排列;
所述計算單元用以依次計算標準詞庫中各標準詞的詞向量、計算搜索詞庫中各關鍵詞的詞向量,并基于計算結(jié)果計算任一關鍵詞的詞向量與各標準詞的詞向量之間的向量偏差α,設定向量偏差α=|關鍵詞的詞向量-標準詞的詞向量|,將向量偏差α分別與第一向量偏差標準α1和第二向量偏差標準α2進行比對以根據(jù)比對結(jié)果確定對關鍵詞的處理方式,其中,
第一處理方式為用標準詞取代關鍵詞儲存至搜索詞庫;
第二處理方式為計算關鍵詞和標準詞的語義相似度;
第三處理方式為將關鍵詞儲存至搜索詞庫中并將關鍵詞補充至標準詞庫;
所述第一處理方式滿足α<α1,所述第二處理方式滿足α1≤α<α2,所述第三處理方式滿足α≥α2,α1<α2;
在所述第二處理方式下,所述計算單元基于Ontology計算關鍵詞和標準詞的語義相似度S,計算單元將語義相似度S與語義相似度標準S0進行比對并根據(jù)比對結(jié)果確定對關鍵詞的處理方式,其中,
在第一語義相似度比對結(jié)果下,所述計算單元對關鍵詞采用所述第一處理方式;
在第二語義相似度比對結(jié)果下,所述計算單元對關鍵詞采用所述第三處理方式;
所述第一語義相似度比對結(jié)果滿足S≥S0,所述第二語義相似度比對結(jié)果滿足S<S0;
所述第一分析單元確定任一文獻中提取的關鍵詞,統(tǒng)計該文獻中各關鍵詞的數(shù)量N,并統(tǒng)計該文獻中關鍵詞的總數(shù)量N0,第一分析單元根據(jù)以下公式計算該文獻中各提取的關鍵詞的頻率f,設定
其中,Ni為任一關鍵詞的數(shù)量;
所述第一分析單元中設有第一頻率標準f1和第二頻率標準f2,f1<f2,第一分析單元將各關鍵詞的頻率f分別與f1和f2進行比對并根據(jù)比對結(jié)果確定各關鍵詞的級別,其中,
在第一頻率比對結(jié)果下,所述第一分析單元將對應的關鍵詞的級別設置為第一級別并將該第一級別關鍵詞的比例系數(shù)設置為第一比例系數(shù)a1;
在第二頻率比對結(jié)果下,所述第一分析單元將對應的關鍵詞的級別設置為第二級別并將該第二級別關鍵詞的比例系數(shù)設置為第二比例系數(shù)a2;
在第三頻率比對結(jié)果下,所述第一分析單元將對應的關鍵詞的級別設置為第三級別并將該第三級別關鍵詞的比例系數(shù)設置為第三比例系數(shù)a3;
所述第一頻率比對結(jié)果滿足f≥f2,所述第二頻率比對結(jié)果滿足f1≤f<f2,所述第三頻率比對結(jié)果滿足f<f1,1>a1>a2>a3>0.1,a1+a2+a3=1;
所述第一分析單元中設有第一級別關鍵詞數(shù)量標準M0,第一分析單元將任一文獻中第一級別關鍵詞的數(shù)量M與第一級別關鍵詞數(shù)量標準M0進行比對并根據(jù)比對結(jié)果判定是否對第一比例系數(shù)a1進行修正,其中,
在第一數(shù)量比對結(jié)果下,所述第一分析單元判定無需對第一比例系數(shù)a1進行修正;
在第二數(shù)量比對結(jié)果下,所述第一分析單元判定需對第一比例系數(shù)a1進行修正;
其中,所述第一數(shù)量比對結(jié)果滿足M≥M0,所述第二數(shù)量比對結(jié)果滿足M<M0;
所述第一分析單元在第一預設條件下計算任一文獻中第一級別關鍵詞的數(shù)量M與第一級別關鍵詞數(shù)量標準M0的差值ΔM并根據(jù)ΔM確定對第一比例系數(shù)a1的修正方式,設定ΔM=M0-M,其中,
第一修正方式為使用第一修正系數(shù)e1將第一比例系數(shù)a1修正至第一修正比例系數(shù)e1a;
第二修正方式為使用第二修正系數(shù)e2將第一比例系數(shù)a1修正至第二修正比例系數(shù)e1b;
第三修正方式為使用第三修正系數(shù)e3將第一比例系數(shù)a1修正至第三修正比例系數(shù)e1c;
其中,所述第一修正方式滿足ΔM<ΔM1,所述第二修正方式滿足ΔM1≤ΔM<ΔM2,所述第三修正方式滿足ΔM≥ΔM2,所述第一預設條件為M<M0,1<e1<e2<e3<1.1;
所述第二分析單元將搜索詞與搜索詞庫中的關鍵詞進行一一比對,并根據(jù)比對結(jié)果確定是否需要對搜索詞進行同義替換,其中,
若搜索詞存在于所述搜索詞庫中,所述第二分析單元判定無需對搜索詞進行同義替換,第二分析單元按照搜索詞進行文獻檢索;
若搜索詞不存在于所述搜索詞庫中,所述第二分析單元判定需對搜索詞進行同義替換,第二分析單元計算搜索詞和搜索詞庫中各關鍵詞的語義相似度并選取語義相似度最高值對應的關鍵詞作為搜索文獻的搜索詞;
所述第二分析單元根據(jù)搜索詞的數(shù)量確定對文獻的檢索方式,其中,
第一檢索方式為,提取以所述搜索詞作為第一級別關鍵詞的文獻,并按照文獻中該關鍵詞的頻率對文獻進行降序排列;
第二檢索方式為,提取以所述搜索詞作為關鍵詞的文獻,計算文獻定位參量F,并按照文獻定位參量F對文獻進行降序排列;
第一檢索方式滿足搜索詞的數(shù)量為1,第二檢索方式滿足搜索詞的數(shù)量大于等于2;
所述第二分析單元按照以下公式計算以所述第二檢索方式檢索出的任一文獻的文獻定位參量F,設定
其中,Aj為任一搜索詞的詞向量,n為搜索詞的數(shù)量,ai為該文獻中詞向量Aj對應的比例系數(shù)。
該專利技術資料僅供研究查看技術是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國中醫(yī)科學院中國醫(yī)史文獻研究所,未經(jīng)中國中醫(yī)科學院中國醫(yī)史文獻研究所許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310189562.4/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 中醫(yī)健康管理系統(tǒng)及智能終端
- 基于中醫(yī)體質(zhì)辨識的健康管理系統(tǒng)及智能終端
- 一種中醫(yī)古代文獻半監(jiān)督學習方法和系統(tǒng)
- 一種中醫(yī)健康狀態(tài)多維辨識系統(tǒng)
- 中醫(yī)體質(zhì)類型檢測方法及裝置
- 一種基于證素的中醫(yī)輔助診斷系統(tǒng)
- 基于DAELA-LSTM神經(jīng)網(wǎng)絡的痛經(jīng)中醫(yī)辨證系統(tǒng)
- 一種基于中醫(yī)養(yǎng)生功法的健康數(shù)據(jù)管理平臺
- 一種面向中醫(yī)古籍文獻的分詞方法和裝置
- 數(shù)據(jù)處理方法、裝置、設備和存儲介質(zhì)





