[發明專利]基于機器學習的生物醫學文本分類方法、系統和存儲介質有效
| 申請號: | 201710277973.3 | 申請日: | 2017-04-25 |
| 公開(公告)號: | CN108733733B | 公開(公告)日: | 2022-03-08 |
| 發明(設計)人: | 不公告發明人 | 申請(專利權)人: | 為朔生物醫學有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06N20/00 |
| 代理公司: | 北京超凡志成知識產權代理事務所(普通合伙) 11371 | 代理人: | 楊勇;董江虹 |
| 地址: | 新加坡電*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 機器 學習 生物醫學 文本 分類 方法 系統 存儲 介質 | ||
1.一種文本分類方法,其特征在于,包括以下步驟:
輸入步驟,在該輸入步驟中,輸入一個或多個文本;
特征提取步驟,在該特征提取步驟中,對所述一個或多個文本進行特征提取,得到第一特征詞集合;
訓練步驟,在該訓練步驟中,至少將特征提取步驟得到的所述第一特征詞集合輸入到機器學習算法進行訓練,輸出第二特征詞集合;
特征選取步驟,在該特征選取步驟中,對所述第二特征詞集合的特征詞進行選取,得到第三特征詞集合;
分類算法生成步驟,在該分類算法生成步驟中,將所述第三特征詞集合輸入到所述機器學習算法,對所述機器學習算法再次進行訓練,得到分類算法;
分類步驟,在該分類步驟中,利用得到的所述分類算法對所述一個或多個文本和/或另外輸入的一個或多個其他文本進行分類,
其中,所述方法還包括:特征補充步驟,在該特征補充步驟中借助白名單中的特征詞對所述第一特征詞集合和/或第二特征詞集合進行補充,以得到補充后的所述第一特征詞集合和/或第二特征詞集合。
2.根據權利要求1所述的方法,其中,所補充的特征詞包括存在于所述文本和所述白名單二者中、但是未包括在所述第一特征詞集合和/或第二特征詞集合中的特征詞。
3.根據權利要求1所述的方法,其中,所述特征選取步驟中的所述選取包括:移除所述第二特征詞集合中的不合理的特征詞。
4.根據權利要求3所述的方法,其中,所述特征選取步驟中的所述選取包括:由領域專家或專家系統執行所述移除,以移除包括特殊詞、罕見詞、以及無實際意義的詞的所述不合理的特征詞。
5.根據權利要求1至4中的任一項所述的方法,其中,所述一個或多個文本是經過標記的文本,所述另外輸入的一個或多個其他文本是未經標記的文本。
6.根據權利要求1至4中的任一項所述的方法,其中,所述機器學習算法包括:樸素貝葉斯、支持向量機算法、特征詞頻率算法以及最大熵算法。
7.一種計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,該計算機程序在被處理器執行時實現權利要求1-6中任一項所述的方法。
8.一種文本分類系統,其特征在于,包括:
輸入模塊,被配置用于接收輸入的一個或多個文本;
特征提取模塊,被配置用于對所述一個或多個文本進行特征提取,得到第一特征詞集合;
訓練模塊,被配置用于至少將特征提取模塊得到的所述第一特征詞集合輸入到機器學習算法進行訓練,輸出第二特征詞集合;
特征選取模塊,被配置用于對所述第二特征詞集合的特征詞進行選取,得到第三特征詞集合;
分類算法生成模塊,被配置用于將所述第三特征詞集合輸入到所述機器學習算法,對所述機器學習算法再次進行訓練,得到分類算法;
分類模塊,被配置用于利用所述分類算法對所述一個或多個文本和/或另外輸入的一個或多個其他文本進行分類,
其中,所述系統還包括:特征補充模塊,所述特征補充模塊被配置用于借助白名單中的特征詞對所述第一特征詞集合和/或第二特征詞集合進行補充,以得到補充后的所述第一特征詞集合和/或第二特征詞集合。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于為朔生物醫學有限公司,未經為朔生物醫學有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710277973.3/1.html,轉載請聲明來源鉆瓜專利網。





