[發明專利]基于機器學習的中文RCT智能分類器的構建方法在審
| 申請號: | 201811525748.8 | 申請日: | 2018-12-13 |
| 公開(公告)號: | CN109753564A | 公開(公告)日: | 2019-05-14 |
| 發明(設計)人: | 李春潔;姚攀;陳圣愷;謝雨;毛渤淳;臧義;曹鈺彬;于中華;陳黎;劉露;徐楊 | 申請(專利權)人: | 四川大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G16H50/70 |
| 代理公司: | 成都九鼎天元知識產權代理有限公司 51214 | 代理人: | 韓雪 |
| 地址: | 610041 四川*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 構建 分類器模型 基于機器 智能分類 訓練集 驗證集 標注 中文 構建分類器 參數調整 分類結果 人工分類 神經網絡 循證醫學 主觀因素 自動學習 分類 學習 | ||
1.一種基于機器學習的中文RCT智能分類器的構建方法,其特征在于,包括以下步驟:
S1:對海量文獻進行標注分類的步驟;
S2:挑選出標注的文獻構建訓練集、驗證集的步驟;
S3:對訓練集采用神經網絡進行深度學習以構建分類器模型的步驟;
S4:基于驗證集對分類器模型進行參數調整的步驟。
2.如權利要求1所述的智能分類器的構建方法,其特征在于,所述S1具體為:
將每一篇文獻導入到兩個主體-第一主體和第二主體-進行標注;
針對于每一篇文獻,判斷兩個主體對文獻的標注結果是否一致,若是,則完成文獻的標注分類,否則,將文獻重新發送給兩個主體進行二次標注;
若二次標注的結果一致,則完成文獻的標注分類,否則,將文獻發送給第三主體進行標注,并以第三主體的標注結果作為對文獻的分類結果。
3.如權利要求1所述的智能分類器的構建方法,其特征在于,所述步驟S3中,選用的神經網絡為卷積神經網絡。
4.如權利要求3所述的智能分類器的構建方法,其特征在于,所述S3針對每一篇文獻,包括以下步驟:
S3-1:對文獻進行分詞處理,將一篇文獻處理為含n個分詞的詞序列;
S3-2:根據預構建的詞向量表,將詞序列轉換為對應的詞向量矩陣;
S3-3:對詞向量矩陣進行卷積和池化的過程;
S3-4:配置全連接層;
S3-5:定義交叉熵函數loss,采用Adam優化器,反向傳播更新神經網絡參數與詞向量表。
5.如權利要求1所述的智能分類器的構建方法,其特征在于,所述S4包括以下步驟:
通過訓練集和驗證集上交叉熵函數loss的變化,調整和確定迭代次數,保證模型收斂;
設置初始的學習率,通過交叉熵函數loss基于該初始學習率的收斂情況,對學習率進行調整;
對batch_size大小的調整過程;
對卷積核filter個數以及每一個卷積核filter窗口的大小的調整過程;
對全連接層作dropout處理,取參數[0,1]。
6.如權利要求5所述的智能分類器的構建方法,其特征在于,所述S4還包括:
在定義交叉熵函數loss時,還對分類器模型作L2懲罰,懲罰項參數根據驗證集的準確率作調整。
7.如權利要求1所述的智能分類器的構建方法,其特征在于, 在所述S2中,還包括挑選標注的文獻構建測試集的步驟;方法還包括:
S5:利用測試集對S4調整參數后的分類器模型進行測試的步驟。
8.如權利要求1-7任一所述的智能分類器的構建方法,其特征在于,對文獻的分類結果包括:
a類:臨床隨機對照試驗;
b類:隨機不明的臨床對照試驗;
c類:信息不足無法判斷;
d類:非隨機對照臨床研究;
e類:其他;
或者,進一步將上述文獻作二分類,即a、b、c類歸為f類:考慮RCT類,d、e類歸為g類:非RCT類。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于四川大學,未經四川大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811525748.8/1.html,轉載請聲明來源鉆瓜專利網。





