[發明專利]一種基于數據挖掘的中醫醫學文獻分類及存儲方法有效
| 申請號: | 201611174644.8 | 申請日: | 2016-12-19 |
| 公開(公告)號: | CN106682136B | 公開(公告)日: | 2018-03-16 |
| 發明(設計)人: | 劉凱;吳志力 | 申請(專利權)人: | 劉凱 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 深圳市蘭鋒知識產權代理事務所(普通合伙)44419 | 代理人: | 曹明蘭 |
| 地址: | 518000 廣東省*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 數據 挖掘 中醫 醫學 文獻 分類 存儲 方法 | ||
技術領域
本發明涉及到文獻數據處理技術領域,特別是一種基于數據挖掘的中醫醫學文獻分類及存儲方法。
背景技術
中醫學是當今中國醫藥衛生事業中獨具特色和優勢的重要組成部分,對于豐富世界醫學寶庫、保護人類健康,產生積極的作用。新形勢下,我國中醫學學領域的相關研究在注重繼承經典的同時,同樣注重與西方醫學、藥學、信息學、生物學等領域的交叉融合,形成新的學科增長點,在學術研究領域則表現為研究主題跨雙學科或多學科的學術論文的發表。在醫學研究領域,領域內專家、學者通常基于定性的研究方法,在大量閱讀文獻的基礎上,依據其研究經驗及積累主觀性地識別某領域或學科的研究熱點,形成綜述類文獻或報告,以供借鑒。
現有技術目前都是基于人工分析整理中醫學文獻,還沒有一種科學的科學化基于大數據分析的文獻分類方式。
發明內容
為解決上述技術問題,本發明提供了一種基于數據挖掘的中醫醫學文獻分類及存儲方法,其包括以下步驟:
在特定知識數據庫中通過中醫檢索關鍵詞進行檢索,獲取到若干與所述中醫檢索關鍵詞匹配的中醫文獻作為中醫醫學文獻基礎數據庫;
分別按照下載的先后順序,整合到一個平面文件里面,以特定的編碼格式保存;
然后對下載的非結構化的文本數據進行關鍵信息提取,保存成特定的數據格式,建立中醫醫學文獻的關鍵信息的編碼表,所述關鍵信息分別對應一個二進制編碼;
所述關鍵信息包括核心數據和非核心數據兩種類型,提取出來的數據,首先存入相應數據庫,作為下一步數據處理的基礎數據,然后導人SQL中進行下一步的挖掘分析;所述核心數據為下載的文本數據中超過設定閾值頻率的關鍵詞,所述非核心數據為下載的文本數據中出現過至少一次并低于設定閾值的關鍵詞;核心數據對應的關鍵詞i的數據模式可以表示為一個關系表Hi(B1,B2,...,Bmi),其中B為該關鍵詞的屬性值,各關鍵詞的屬性值根據關鍵詞所在中醫的具體領域進行預先設定;關鍵詞對應的數據庫{D1,D2,...,Dni}的數據模式都可以對應到Hi上;其中非核心數據對應的關鍵詞j的數據模式可以表示為一個關系表Hj(B1,B2,...,Bmj),其中B為該關鍵詞的屬性,關鍵詞對應的數據庫{D1,D2,...,Dnj}的數據模式都可以對應到Hj上;
具體各關鍵詞的關聯度量化值為K(Bmi,Dni)=ρdist(Bmi,Dni)-1,K(Bmj,Dnj)=ρdist(Bmj,Dnj)-1,dist(Bmi,Dni)為Bmi、Dni之間的歐式距離,dist(Bmj,Dnj)為Bmj、Dnj之間的歐式距離,ρ>1為伸縮因子;其中K(Bmi,Dni)、K(Bmj,Dnj)表示核心數據對應的關鍵詞i、非核心數據對應的關鍵詞j的關聯度量化值,將關聯度量化值在給定閾值范圍內的所有關鍵詞作為一個關鍵詞數據群,將核心數據對應的所有關鍵詞劃分到若干核心數據群中;同時將非核心數據對應的所有關鍵詞劃分到若干非核心數據群中;
對所述核心數據群中對應的關鍵詞與所述非核心數據群中對應的關鍵詞進行隨機兩兩組合,獲取到中醫文獻關鍵詞組合,并根據所述中醫文獻關鍵詞組合作為檢索關鍵詞獲取到相應的中醫文獻作為中醫醫學文獻,將所述中醫醫學文獻進行存儲,并將所述中醫文獻關鍵詞組合作為所述中醫醫學文獻存儲標識。
本發明具有以下有益效果:
本發明提供的基于數據挖掘的中醫醫學文獻分類及存儲方法基于中醫學數據庫關鍵詞檢索,并通過對檢索到的文獻進行數據提取,對獲取到的關鍵信息進行數據挖掘分析,得到關鍵詞數據群,并根據關鍵詞數據群中的關鍵詞進行組合進行檢索得到相關中醫醫學文獻,并將所述中醫文獻關鍵詞組合作為所述中醫醫學文獻存儲標識。本發明實現了高效與準確的獲取中醫學文獻數據,完成了中醫醫學文獻的精確分類存儲。
當然,實施本發明的任一產品并不一定需要同時達到以上所述的所有優點。
具體實施方式
下面將結合本發明實施例對本發明中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發明一部分實施例,而不是全部的實施例。基于本發明中的實施例,本領域普通技術人員在沒有作出創造性勞動前提下所獲得的所有其它實施例,都屬于本發明保護的范圍。
本發明實施例提供了一種基于數據挖掘的中醫醫學文獻分類及存儲方法,其包括以下步驟:
在特定知識數據庫中通過中醫檢索關鍵詞進行檢索,獲取到若干與所述中醫檢索關鍵詞匹配的中醫文獻作為中醫醫學文獻基礎數據庫;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于劉凱,未經劉凱許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611174644.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種醫用胸罩
- 下一篇:一種多功能雙頭艾灸棒
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





