[發明專利]一種基于特征詞袋模型的相似中藥檢索方法在審
| 申請號: | 201811073670.0 | 申請日: | 2018-09-14 |
| 公開(公告)號: | CN109378080A | 公開(公告)日: | 2019-02-22 |
| 發明(設計)人: | 張引;陳焱鋒 | 申請(專利權)人: | 浙江大學 |
| 主分類號: | G16H70/40 | 分類號: | G16H70/40;G06F16/31;G06F16/36;G06F17/27 |
| 代理公司: | 杭州求是專利事務所有限公司 33200 | 代理人: | 鄭海峰 |
| 地址: | 310058 浙江*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 中草藥 特征詞 性味 檢索 光學字符識別 相似性數據庫 屬性相似度 正則表達式 中藥大辭典 空間向量 數字文本 信息提取 交集 相似度 信息化 信息庫 本草 并集 向量 匯編 中藥 學習 | ||
1.一種基于特征詞袋模型的相似中藥檢索方法,其特征在于包括以下步驟:
1)應用光學字符識別工具對DjVu格式的“中國藥典”、“中華本草”、“中藥大辭典”、“全國中草藥匯編”’進行光學字符識別處理,將紙質資料轉換成數字化文本資料,然后運用正則表達式對數字化文本進行信息抽取,將不同中草藥的信息、相同中草藥的不同信息分離開來,建立中草藥信息庫;
2)結合中草藥性味、歸經、功效、用法各自特征詞袋對中草藥性味、中草藥歸經、中草藥功效、中草藥用法屬性構建詞袋向量;
3)利用中草藥功效、歸經、性味、用法屬性的詞袋向量,對中草藥性味、歸經、功效、用法進行屬性間相似度計算,得到中草藥相似性數據庫,同時建立數據索引;
4)用戶先輸入待查詢的中草藥名稱,然后根據需要勾選相似屬性選項,根據所輸入的中草藥名稱和勾選的屬性去查詢相應的中草藥相似性數據庫表,檢索出與輸入中草藥所需屬性相似的中草藥,并將檢索結果通過echart可視化工具以關系圖方式展示給用戶;關系圖中點擊兩兩中藥的連線可以查詢中草藥信息庫,獲取相似中草藥性味、中草藥歸經、中草藥功效、中草藥用法屬性詳細信息。
2.根據權利要求1所述的一種基于特征詞袋模型的相似中藥檢索方法,其特征在于所述步驟2)包括:
所述中草藥性味特征詞袋為:帶程度助詞的“四氣五味”共計25個,即:苦、平、無毒、辛、甘、酸、咸、涼、寒、微酸、熱、澀、有毒、微涼、微寒、溫、微辛、微溫、有小毒、微苦、微甘、微澀、微咸、微熱、微平,采用0-1量化構造詞袋向量空間;
所述中草藥歸經特征詞袋為:“十二腑臟經絡”共計12個,即:肺、腎、脾、膀胱、小腸、肝、胃、大腸、心、膽、三焦、心包,采用0-1量化構造詞袋向量空間;
所述中草藥功效特征詞袋為:人工收集的功效短語共計151個,即:安神、安胎、拔毒、辟穢、補肺、補肝、補命門火、補脾、補脾胃、補氣、補腎、補心、補虛、補血、補陽、除痹、除煩、催產、催吐、導滯、滌痰、調經、定癇、發汗、腐蝕、攻毒、固崩、固齒、固精、固脫、和胃、和血、和中、化斑、化濕、化痰、回乳、回陽、活血、健胃、降火、降逆、降氣、接骨、截瘧、解表、解毒、解蛇蟲毒、解暑、開竅、寬胸、寬中、理氣、利膽、利關節、利竅、利水、利咽喉、斂瘡、斂肺、涼血、明目、排膿、排石、平喘、平肝潛陽、平肝熄風、破血、強筋骨、強心、清肺、清肝、清熱、清頭目、清心、清虛熱、驅蟲、祛風、祛寒、祛瘀、袪濕、軟堅、潤腸、潤肺、潤膚、潤燥、散結、澀腸、升陽、生發、生肌、蝕贅疣、收斂、疏風、疏肝、舒筋、縮尿、通便、通經、通淋、通絡、通乳、通陽、透疹、退黃、托毒、溫肺、溫化寒濕、溫經、溫中、烏須發、消疳積、消積、消痞、消痰、消翳、消癭、消脹、消癥積、消腫、泄熱、瀉火、瀉下、辛涼解表、辛溫解表、行氣、宣肺、養胃、養顏、益智、引火歸原、燥濕、鎮驚、止帶、止呃、止汗、止痙、止咳、止痢、止嘔、止痛、止瀉、止血、止癢、重鎮安神、逐水、逐飲、壯陽、壯腰膝、墜痰、滋陰,采用0-1量化構造詞袋向量空間;
所述中草藥用法特征詞袋為:人工收集的用法、用量詞語共計31個,即:搗、敷、嚼、敢、煅、研、燒、泡、沖、煎湯、浸酒、撒、摻、煎、熏、洗、煮、搽、酒炒、醋、油、酒、丸、散、劑、膏、湯、錢、兩、g、分,采用0-1量化構造詞袋向量空間。
3.根據權利要求1所述的一種基于特征詞袋模型的相似中藥檢索方法,其特征在于:所述步驟3)包括:
(1)利用詞袋向量間值為1的交集數量除以并集數量的方法計算任意兩味中藥在同一屬性下的相似度,即中草藥的功效-功效、中草藥的性味-性味、中草藥的歸經-歸經、中草藥的用法-用法的相似度Sim(v1,v2):
Sim(v1,v2)=sum((v1 AND v2)==1)/sum((v1 OR v2)==1)
其中sum(x==1)為計算向量x中值為1的元素的數量,(v1 AND v2)為邏輯運算的與門,(v1 OR v2)為邏輯運算的或門;
(2)對任意一味中藥,分別在性味、歸經、功效、用法屬性上計算相似度值在前100的中藥藥對存入相應的數據庫表中;
(3)將生成的相似度表導入構建好的solr cloud搜索引擎平臺,建立數據索引。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江大學,未經浙江大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811073670.0/1.html,轉載請聲明來源鉆瓜專利網。





