[發明專利]基于機器學習的生物醫學文本分類方法、系統和存儲介質有效
| 申請號: | 201710277973.3 | 申請日: | 2017-04-25 |
| 公開(公告)號: | CN108733733B | 公開(公告)日: | 2022-03-08 |
| 發明(設計)人: | 不公告發明人 | 申請(專利權)人: | 為朔生物醫學有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06N20/00 |
| 代理公司: | 北京超凡志成知識產權代理事務所(普通合伙) 11371 | 代理人: | 楊勇;董江虹 |
| 地址: | 新加坡電*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 機器 學習 生物醫學 文本 分類 方法 系統 存儲 介質 | ||
本發明公開了文本分類方法,包括:輸入一個或多個文本;對所述一個或多個文本進行特征提取,得到第一特征詞集合;至少將特征提取步驟得到的所述第一特征詞集合輸入到機器學習算法進行訓練,輸出第二特征詞集合;對所述第二特征詞集合的特征詞進行選取,得到第三特征詞集合;將所述第三特征詞集合輸入到所述機器學習算法,對所述機器學習算法再次進行訓練,得到分類算法;利用所述分類算法對所述一個或多個文本和/或另外輸入的一個或多個其他文本進行分類。還公開了文本分類系統和計算機可讀存儲介質,該介質上存儲有計算機程序,該程序被處理器執行時實現上述文本分類方法。本發明改善了文本特征的選取,從而有利于提高文本分類的準確性。
本發明要求中國專利申請號201710266834.0,申請日為2017年4月21日,名稱為“文本分類方法、系統和計算機可讀存儲介質”的優先權,該申請通過全文引入的方式合并于此。
技術領域
本發明大體上涉及文本分類方法、文本分類系統和計算機可讀存儲介質。更具體地,涉及對醫學文獻文本進行分類的方法、系統和存儲有文本分類方法的計算機可讀存儲介質。
背景技術
隨著測序技術(sequencing technologies)的迅速發展,已經很容易產生并且大量地產生各種組學數據(omics data),這有利于促進精準醫學的發展。通常,知識數據庫是從文獻中得到的新發現的集合,是解釋數據和將信息轉化為臨床上有意義的行為的關鍵組成部分。目前,知識數據庫的構建在很大程度上取決于人工處理(curation),以確保信息的準確性。然而,世界各地醫學方面的文獻更新的速度越來越頻繁,這增加了文本檢索的難度,尤其是對臨床上有意義的信息的檢索。然而,目前本技術領域中使用的醫學文獻分類算法,由于數據的異質性、訓練方法為純計算機算法,不包括領域專家的人為校準與優化等原因,精度較低。關于文本分類的算法還不完善,尤其是在文本的特征提取方面不夠精確,這使得對文本作出的標記不完整或者不確切,不能準確體現文本的分類信息,從而給后續的檢索工作以及數據庫構建等帶來很多干擾。因此如何能夠在算法中減少數據的異質性,并引入領域專家的審查與矯正,以提高分類算法的精度,是需要迫切解決的問題。
發明內容
本發明提出了一種文本分類方法和相應的文本分類系統,其改善了文本特征的選取,從而有利于提高文本分類的準確性。
一方面,本發明提出了一種文本分類方法,包括以下步驟:
輸入步驟,在該輸入步驟中,輸入一個或多個文本;
特征提取步驟,在該特征提取步驟中,對所述一個或多個文本進行特征提取,得到第一特征詞集合;
訓練步驟,在該訓練步驟中,至少將特征提取步驟得到的所述第一特征詞集合輸入到機器學習算法進行訓練,輸出第二特征詞集合;
特征選取步驟,在該特征選取步驟中,對所述第二特征詞集合的特征詞進行選取,得到第三特征詞集合;
分類算法生成步驟,在該分類算法生成步驟中,將所述第三特征詞集合輸入到所述機器學習算法,對所述機器學習算法再次進行訓練,得到分類算法;
分類步驟,在該分類步驟中,利用所述分類算法對所述一個或多個文本和/或另外輸入的一個或多個其他文本進行分類。
優選地,所述方法還包括:特征補充步驟,在該特征補充步驟中借助白名單中的特征詞對所述第一特征詞集合和/或第二特征詞集合進行補充,以得到補充后的所述第一特征詞集合和/或第二特征詞集合。
優選地,所補充的特征詞包括存在于所述文本和所述白名單二者中、但是未包括在所述第一特征詞集合和/或第二特征詞集合中的特征詞。
優選地,所述特征補充步驟包括在所述特征提取步驟、所述訓練步驟或者所述特征選取步驟中的任意一個或多個步驟中。
優選地,所述特征補充步驟作為單獨的步驟在所述特征提取步驟和/或所述訓練步驟之后執行。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于為朔生物醫學有限公司,未經為朔生物醫學有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710277973.3/2.html,轉載請聲明來源鉆瓜專利網。





