[發明專利]中醫藥文獻語料庫與知識庫一體化系統在審
| 申請號: | 202210413257.4 | 申請日: | 2022-04-20 |
| 公開(公告)號: | CN114791955A | 公開(公告)日: | 2022-07-26 |
| 發明(設計)人: | 劉麗紅;朱彥;李海燕;賈李蓉;楊碩;姚克宇;高博;陳超;聶瑩 | 申請(專利權)人: | 中國中醫科學院中醫藥信息研究所 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F16/34;G06F16/84;G06F40/242;G06F40/279;G06F40/30;G16H70/40 |
| 代理公司: | 北京科石知識產權代理有限公司 11595 | 代理人: | 李艷霞 |
| 地址: | 100700 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 中醫藥 文獻 語料庫 知識庫 一體化 系統 | ||
1.一種中醫藥文獻語料庫與知識庫一體化系統,其特征在于,包括元數據模塊、語料庫、文檔標注模塊、查詢模塊和語義知識庫;
所述元數據模塊用于設定實體類、詞典和語義關系并進行維護;
所述語料庫用于根據導入的文獻形成半結構化文檔;
所述文檔標注模塊以詞典為標注依據對半結構化文檔進行標注;
所述查詢模塊用于對元數據進行查詢,以獲得實體類、詞典和語義關系的查詢結果;
所述語義知識庫用于對語義信息、語義出處和原文情況進行檢索。
2.根據權利要求1所述的中醫藥文獻語料庫與知識庫一體化系統,其特征在于,所述元數據模塊中設置有實體類和語義關系,每個所述實體類包括至少一個詞典;所述語義關系根據所述實體類的屬性定義各實體類之間的關系。
3.根據權利要求1所述的中醫藥文獻語料庫與知識庫一體化系統,其特征在于,所述語料庫中包括至少一個專題,每個所述專題下涵蓋有多個文獻;所述文獻以樹形結構進行展示。
4.根據權利要求1所述的中醫藥文獻語料庫與知識庫一體化系統,其特征在于,所述文檔標注模塊包括在線標注模塊和語料標注模塊;所述在線標注模塊用于獲取用戶輸入的標注文本,并對標注文本進行在線標注;所述語料標注模塊用于對半結構化文檔中的數據進行標注。
5.根據權利要求4所述的中醫藥文獻語料庫與知識庫一體化系統,其特征在于,所述文檔標注模塊的標注方式包括人工標注和機器標注;所述在線標注模塊采用人工標注方式進行標注。
6.根據權利要求5所述的中醫藥文獻語料庫與知識庫一體化系統,其特征在于,所述在線標注模塊采用人工標注方式進行標注的具體過程為:
人工選中某篇文獻或某篇文獻中的某個詞組,并利用“實體編碼”對選中的數據進行標注;
在線標注模塊通過匹配元數據中的實體、詞典和語義關系對文件中的內容進行匹配,匹配后實現對文獻的自動標注,并采用“實體”的標注顏色顯示標注后的內容;
標注文獻中各個術語之間的語義關系;
人工審核機器標注的術語,最終完成文獻的標注。
7.根據權利要求6所述的中醫藥文獻語料庫與知識庫一體化系統,其特征在于,所述機器標注的具體過程為:
基于人工標注的結果集合得到訓練數據集;
依托分詞算法使訓練數據集不斷進行機器學習,建立語義模型;
將訓練數據集輸入語義模型中,進行迭代和參數調整;
利用標注規則和訓練完成的語義模型進行自動標注。
8.根據權利要求2所述的中醫藥文獻語料庫與知識庫一體化系統,其特征在于,所述查詢模塊用于對實體類、詞典和語義關系進行查詢;
所述查詢模塊對實體類進行查詢時,依據屬性字段進行精準或模糊檢索;所述查詢模塊對詞典進行查詢時,依據詞典標注情況進行精準或模糊檢索;所述查詢模塊對語義關系進行查詢時,在實體類和詞典的檢索結果中獲取相關語義關系的查詢結果。
9.根據權利要求1所述的中醫藥文獻語料庫與知識庫一體化系統,其特征在于,所述語義知識庫的檢索結果包括語義檢索結果和全文檢索結果;所述語義檢索結果中展示檢索的“語義”及“同義詞”;所述全文檢索結果中,通過“所檢索的關鍵詞”,展示“結構化數據”和“非結構化數據”中涵蓋關鍵詞的內容。
10.根據權利要求1所述的中醫藥文獻語料庫與知識庫一體化系統,其特征在于,還包括系統管理模塊,所述系統管理模塊包括機構管理模塊、用戶管理模塊、權限管理模塊、角色管理模塊、字典管理模塊和日志管理模塊。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國中醫科學院中醫藥信息研究所,未經中國中醫科學院中醫藥信息研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210413257.4/1.html,轉載請聲明來源鉆瓜專利網。





