[發明專利]一種基于特征詞袋模型的相似中藥檢索方法在審
| 申請號: | 201811073670.0 | 申請日: | 2018-09-14 |
| 公開(公告)號: | CN109378080A | 公開(公告)日: | 2019-02-22 |
| 發明(設計)人: | 張引;陳焱鋒 | 申請(專利權)人: | 浙江大學 |
| 主分類號: | G16H70/40 | 分類號: | G16H70/40;G06F16/31;G06F16/36;G06F17/27 |
| 代理公司: | 杭州求是專利事務所有限公司 33200 | 代理人: | 鄭海峰 |
| 地址: | 310058 浙江*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 中草藥 特征詞 性味 檢索 光學字符識別 相似性數據庫 屬性相似度 正則表達式 中藥大辭典 空間向量 數字文本 信息提取 交集 相似度 信息化 信息庫 本草 并集 向量 匯編 中藥 學習 | ||
本發明公開了一種基于特征詞袋模型的相似中草藥檢索方法。首先通過光學字符識別工具將“中國藥典”、“中華本草”、“全國中草藥匯編”、“中藥大辭典”中的中草藥信息轉成數字文本。使用正則表達式方法將中草藥的功效、性味、歸經用法等信息提取出來,建立中草藥信息庫。分別根據中草藥的功效、性味、歸經、用法四個特征詞袋生成中草藥的功效、性味、歸經、用法的詞袋空間向量。最后根據特征詞袋向量交集并集之商計算中草藥間功效、性味、歸經、用法屬性的相似度,產生中草藥相似性數據庫。本發明可以根據屬性相似度檢索相關中草藥,對中草藥學習、促進中草藥信息化意義重大。
技術領域
本發明涉及文本挖掘領域、中醫藥理論和echart可視化技術。特別是涉及一種基于特征詞袋模型的相似中藥檢索方法。
背景技術
中醫指中國傳統醫學,是研究人體生理、病理以及疾病的診斷和防治等的一門學科。它承載著中國古代人民同疾病作斗爭的經驗和理論知識,是在古代樸素的唯物論和自發的辨證法思想指導下,通過長期醫療實踐逐步形成并發展成的醫學理論體系。但是由于中醫理論缺乏形式化表達和公眾普及,人們很難直觀的接觸并理解中醫藥知識。鑒于此,本案發明人的關注點在于如何將中醫的基本原理以一種直觀的方式展示出來,從而推動中醫藥信息化的發展。
基于doc2vec的方法主要研究文本向量表示,將大段文本轉化為一個特征向量,再計算兩向量間的相似度。但該方法對于長文本效果顯著,對于中藥性味、歸經、功效、用法屬性的短文本無法很好的表示。
基于特征詞袋模型的方法,通過設計好特征詞袋,能夠很好地捕捉短文本的語義特征,對相似度計算效果有很大提升。
發明內容
本發明的目的是克服現有技術的不足,提供一種基于特征詞袋模型的相似中藥檢索方法。
基于特征詞袋模型的相似中藥檢索方法包括以下步驟:
1)應用光學字符識別工具對DjVu格式的“中國藥典”、“中華本草”、“中藥大辭典”、“全國中草藥匯編”’進行光學字符識別處理,將紙質資料轉換成數字化文本資料,然后運用正則表達式對數字化文本進行信息抽取,將不同中草藥的信息、相同中草藥的不同信息分離開來,建立中草藥信息庫;
2)結合中草藥性味、歸經、功效、用法各自特征詞袋對中草藥性味、中草藥歸經、中草藥功效、中草藥用法屬性構建詞袋向量;
3)利用中草藥功效、歸經、性味、用法屬性的詞袋向量,對中草藥味、歸經、功效、用法進行屬性間相似度計算,得到中草藥相似性數據庫,同時建立數據索引;
4)用戶先輸入待查詢的中草藥名稱,然后根據需要勾選相似屬性選項,根據所輸入的中草藥名稱和勾選的屬性去查詢相應的中草藥相似性數據庫表,檢索出與輸入中草藥所需屬性相似的中草藥,并將檢索結果通過echart可視化工具以關系圖方式展示給用戶。關系圖中點擊兩兩中藥的連線可以查詢中草藥信息庫,獲取相似中草藥性味、中草藥歸經、中草藥功效、中草藥用法屬性詳細信息。
所述中草藥性味特征詞袋為:帶程度助詞的“四氣五味”共計25個,即:苦、平、無毒、辛、甘、酸、咸、涼、寒、微酸、熱、澀、有毒、微涼、微寒、溫、微辛、微溫、有小毒、微苦、微甘、微澀、微咸、微熱、微平,采用0-1量化構造詞袋向量空間;
所述中草藥歸經特征詞袋為:“十二腑臟經絡”共計12個,即:肺、腎、脾、膀胱、小腸、肝、胃、大腸、心、膽、三焦、心包,采用0-1量化構造詞袋向量空間;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江大學,未經浙江大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811073670.0/2.html,轉載請聲明來源鉆瓜專利網。





