[發明專利]一種中醫學文獻分析方法有效
| 申請號: | 201611174641.4 | 申請日: | 2016-12-19 |
| 公開(公告)號: | CN106777137B | 公開(公告)日: | 2018-03-16 |
| 發明(設計)人: | 譚紅春;闞紅星;耿英保;谷宗運 | 申請(專利權)人: | 譚紅春 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 北京和信華成知識產權代理事務所(普通合伙)11390 | 代理人: | 胡劍輝 |
| 地址: | 230000 安*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 中醫學 文獻 分析 方法 | ||
技術領域
本發明涉及到文獻數據處理技術領域,特別是一種中醫學文獻分析方法。
背景技術
中醫學是當今中國醫藥衛生事業中獨具特色和優勢的重要組成部分,對于豐富世界醫學寶庫、保護人類健康,產生積極的作用。新形勢下,我國中醫學學領域的相關研究在注重繼承經典的同時,同樣注重與西方醫學、藥學、信息學、生物學等領域的交叉融合,形成新的學科增長點,在學術研究領域則表現為研究主題跨雙學科或多學科的學術論文的發表。在醫學研究領域,領域內專家、學者通常基于定性的研究方法,在大量閱讀文獻的基礎上,依據其研究經驗及積累主觀性地識別某領域或學科的研究熱點,形成綜述類文獻或報告,以供借鑒。
現有技術目前都是基于人工分析整理中醫學文獻,還沒有一種科學化基于大數據分析的文獻分類方式。
發明內容
為解決上述技術問題,本發明提供了一種中醫學文獻分析方法,其包括以下步驟:
S1:以中醫學為關鍵詞獲取原始文獻數據庫,提取所述原始文獻數據庫中每個文獻的發表時間信息,將所述原始文獻數據庫按照多個時間段進行歸類;
S2:獲取所述各時間段內的原始文獻的原始關鍵詞,所述原始關鍵詞為原始文獻中出現頻次超過設定閾值的詞,對所述原始關鍵詞進行數據清洗得到醫學關鍵詞;
S3:然后將所述醫學關鍵詞保存成特定的數據格式作為關鍵信息進行存儲,建立中醫醫學文獻的關鍵信息的編碼表,所述關鍵信息分別對應一個二進制編碼;
S4:所述關鍵信息包括核心數據和非核心數據兩種類型,提取出來的數據,首先存入相應數據庫,作為下一步數據處理的基礎數據,然后導人SQL中進行下一步的挖掘分析;所述核心數據為下載的文本數據中超過設定閾值頻率的關鍵詞,所述非核心數據為下載的文本數據中出現過至少一次并低于設定閾值的關鍵詞;核心數據對應的關鍵詞i的數據模式可以表示為一個關系表Hi(B1,B2,...,Bmi),其中B為該關鍵詞的屬性值,各關鍵詞的屬性值根據關鍵詞所在中醫的具體領域進行預先設定;關鍵詞對應的數據庫{D1,D2,...,Dni}的數據模式都可以對應到Hi上;其中非核心數據對應的關鍵詞j的數據模式可以表示為一個關系表Hj(B1,B2,...,Bmj),其中B為該關鍵詞的屬性,關鍵詞對應的數據庫{D1,D2,...,Dnj}的數據模式都可以對應到Hj上;
具體各關鍵詞的關聯度量化值為K(Bmi,Dni)=ρdist(Bmi,Dni)-1,K(Bmj,Dnj)=ρdist(Bmj,Dnj)-1,dist(Bmi,Dni)為Bmi、Dni之間的歐式距離,dist(Bmj,Dnj)為Bmj、Dnj之間的歐式距離,ρ>1為伸縮因子;其中K(Bmi,Dni)、K(Bmj,Dnj)表示核心數據對應的關鍵詞i、非核心數據對應的關鍵詞j的關聯度量化值,將關聯度量化值在給定閾值范圍內的所有關鍵詞作為一個關鍵詞數據群,將核心數據對應的所有關鍵詞劃分到若干核心數據群中;同時將非核心數據對應的所有關鍵詞劃分到若干非核心數據群中;
S5:對所述核心數據群中對應的關鍵詞與所述非核心數據群中對應的關鍵詞進行隨機兩兩組合,獲取到中醫文獻關鍵詞組合,并根據所述中醫文獻關鍵詞組合作為檢索關鍵詞獲取到相應的中醫文獻作為中醫醫學文獻,將所述中醫醫學文獻進行存儲,并將所述中醫文獻關鍵詞組合以及時間段作為所述中醫醫學文獻存儲標識。
較佳地,對所述原始關鍵詞進行數據清洗的具體過程為:含義相同或者相似關鍵詞進行統一,并剔除無實際分析意義的關鍵詞。
較佳地,預設有醫學關鍵詞詞庫,所述醫學關鍵詞詞庫中包括多個子數據庫,所述各子數據庫中存儲有至少一個醫學關鍵詞,所述含義相同或相似關鍵詞預存在同一個子數據庫中的關鍵詞,并可以增加或刪除該子數據庫中的關鍵詞。
較佳地,所述無實際分析意義關鍵詞為未出現在所述醫學關鍵詞詞庫中的原始關鍵詞。
本發明具有以下有益效果:
本發明提供的中醫學文獻分析方法方法基于中醫學數據庫關鍵詞檢索,并通過對檢索到的文獻進行數據提取,對獲取到的關鍵信息進行數據挖掘分析,得到關鍵詞數據群,并根據關鍵詞數據群中的關鍵詞進行組合進行檢索得到相關中醫醫學文獻,并將所述中醫文獻關鍵詞組合作為所述中醫醫學文獻存儲標識。本發明實現了高效與準確的獲取中醫學文獻數據,完成了中醫醫學文獻的精確分類存儲。
當然,實施本發明的任一產品并不一定需要同時達到以上所述的所有優點。
具體實施方式
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于譚紅春,未經譚紅春許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611174641.4/2.html,轉載請聲明來源鉆瓜專利網。





