[發明專利]基于深度學習的中醫藥臨床文獻數據結構化方法及裝置在審
| 申請號: | 202111349067.2 | 申請日: | 2021-11-15 |
| 公開(公告)號: | CN114139610A | 公開(公告)日: | 2022-03-04 |
| 發明(設計)人: | 雷蕾;李海燕;楊樂;劉華云;李小陽;王晰 | 申請(專利權)人: | 中國中醫科學院中醫藥信息研究所 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 北京市廣友專利事務所有限責任公司 11237 | 代理人: | 張仲波 |
| 地址: | 100700 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 深度 學習 中醫藥 臨床 文獻 數據結構 方法 裝置 | ||
本發明公開了一種基于深度學習的中醫藥臨床文獻數據結構化方法及裝置,涉及數據處理技術領域。包括:獲取待處理文獻;將待處理文獻輸入到預先構建好的文獻數據結構化模型;基于待處理文獻以及文獻數據結構化模型,得到結構化文本。本發明能夠解決現有技術存在的抽取結果不準確、校對工作量大,并且由于抽取規則為人為主動進行預置的原因,升級過程復雜,無法利用已校對內容進行自學習,達不到越用越精確的目的的問題。
技術領域
本發明涉及數據處理技術領域,特別是指一種基于深度學習的中醫藥臨床文獻數據結構化方法及裝置。
背景技術
中醫藥臨床文獻包含了豐富的文本和數字信息,其中大量行之有效的臨床實踐經驗有待挖掘,名老中醫個性化的診治經驗極需繼承與總結。在中醫藥信息化浪潮興起的現在,如何與嚴格的臨床隨機對照試驗所獲得的直接證據有機結合?如何將中醫癥狀、體征等軟指標與現代醫學理化檢查所得的硬指標相結合?如何從現有大量的中醫藥的臨床研究資料中獲取循證醫學所需的最佳證據?因此無論是對中醫藥臨床文獻的歸檔、知識庫建設工作,還是對診治經驗進行分析,促進新藥研發,以及培養一支信息方法學研究和建設中醫藥數據的人才隊伍方面,結構化中醫藥臨床文獻數據,都將帶來極大的便利。但是由于目前自然語言處理和中醫藥結合并不緊密,現有技術存在一定的缺陷和不足。一是盡管部分中醫藥臨床文獻數據已經通過人工抽取或規則提取+人工校對的方式進行了簡單的結構化,但是面對海量的中醫藥臨床文獻數據,以及不同的內容構成、寫法、依存句法、正異名等因素,即使在耗費大量人工成本的情況下,依舊無法準確且高效的進行提取和判定,在大數據時代的背景下,不利于研究的進一步開展。二是目前對中醫藥臨床文獻進行自然語言處理和深度學習的技術較少,無法為研究院人員在中醫領域探究發病規律和藥物、劑量等因素的關系提供便利。
現有中醫藥文獻數據結構化處理系統,主要由中醫藥文獻抽詞、PDF分析識別及客戶端身份校驗、用戶自定義詞表及知識圖譜構建三部分組成。還存在不足之處,一方面,此方法是借助中醫藥詞表進行抽詞的,因此只能識別出詞表中已經出現的詞匯,不能識別未登錄詞,若要提高抽取準確率,則需要對詞表進行新詞補充,此過程耗費大量時間;另一方面,此方法需要人工制定抽取規則,加入新規則的過程較為復雜。
發明內容
本發明針對現有技術存在的抽取結果不準確、校對工作量,并且由于抽取規則為人為主動進行預置的原因,升級過程復雜,無法利用已校對內容進行自學習,達不到越用越精確的目的的問題,提出了本發明。
為解決上述技術問題,本發明提供如下技術方案:
一方面,本發明提供了一種基于深度學習的中醫藥臨床文獻數據結構化方法,該方法由電子設備實現,該方法包括:
S1、獲取待處理文獻。
S2、將待處理文獻輸入到預先構建好的文獻數據結構化模型。
S3、基于待處理文獻以及文獻數據結構化模型,得到結構化文本。
可選地,S2中的文獻數據結構化模型的構建過程包括:
S21、獲取中醫藥臨床文獻樣本數據集,并對樣本數據集進行預處理。
S22、對預處理后的樣本數據集進行數據標注,根據得到的標注數據得到正則池以及標注集,將標注集分為訓練集、驗證集、測試集。
S23、構建基于自注意力機制Transformer的神經網絡模型,根據訓練集、驗證集對神經網絡模型進行命名實體識別訓練,得到文獻數據結構化模型。
S24、將測試集輸入到文獻數據結構化模型,得到預測的目標點,根據正則池提取預測的目標點所在的一句或多句話,得到預測的結構化文本。
S25、將預測的結構化文本進行人工校對,若人工校對結果不一致,則轉去執行S21;若人工校對結果一致,則輸出文獻數據結構化模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國中醫科學院中醫藥信息研究所,未經中國中醫科學院中醫藥信息研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111349067.2/2.html,轉載請聲明來源鉆瓜專利網。





