[發明專利]用于醫療文本分類的決策樹構建方法及裝置在審
| 申請號: | 202111296348.6 | 申請日: | 2021-11-03 |
| 公開(公告)號: | CN114020915A | 公開(公告)日: | 2022-02-08 |
| 發明(設計)人: | 張萌;周玉 | 申請(專利權)人: | 北京中科凡語科技有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/31 |
| 代理公司: | 北京庚致知識產權代理事務所(特殊普通合伙) 11807 | 代理人: | 韓德凱 |
| 地址: | 100190 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 醫療 文本 分類 決策樹 構建 方法 裝置 | ||
1.一種用于醫療文本分類的決策樹構建方法,其特征在于,包括:
構建訓練集D={(x1,y1),(x2,y2),……,(xm,ym)},其中,xi表示訓練集中的各個樣本,yi表示訓練集中的樣本對應的類別;
構建屬性集A={a1,a2,a3……,ad},其中,ad表示屬性;
如果訓練集D的各個樣本xi都屬于相同類別,則將節點標記為一個類別的葉節點,決策樹構建完成,結束;
如果屬性集A為空或無法對訓練集D進一步劃分,則將當前訓練集所在的節點標記為葉節點;以及
遍歷屬性集中的每一個屬性,選擇最優劃分屬性,將訓練集D劃分為若干子集Dv,如果Dv為空,則將包含訓練集D的分支節點標記為葉節點,類別記為訓練集D中樣本最多的類,構建結束,否則繼續遍歷。
2.根據權利要求1所述的用于醫療文本分類的決策樹構建方法,其特征在于,所述屬性集A的構成包括:對訓練文本進行分詞,統計各個詞的詞頻,將每個詞作為屬性集A的組成。
3.根據權利要求2所述的用于醫療文本分類的決策樹構建方法,其特征在于,所述屬性集A通過基尼指數劃分的方法獲取。
4.根據權利要求3所述的用于醫療文本分類的決策樹構建方法,其特征在于,通過基尼指數劃分的方法,包括:
對于屬性集A中的每一個屬性,逐一計算各個屬性的基尼指數;以及
選取基尼指數值最小的屬性作為最終劃分集合屬性。
5.一種用于醫療文本分類的決策樹構建裝置,其特征在于,包括:
訓練集構建模塊,用于構建訓練集,訓練集D={(x1,y1),(x2,y2),……,(xm,ym)},其中,xi表示訓練集中的各個樣本,yi表示訓練集中的樣本對應的類別;
屬性集構建模塊,用于構建屬性集,屬性集A={a1,a2,a3……,ad},其中,ad表示屬性;
決策樹生成模塊,基于訓練集和屬性集生成決策樹,包括:
如果訓練集D的各個樣本xi都屬于相同類別,則將節點標記為一個類別的葉節點,決策樹構建完成,結束;
如果屬性集A為空或無法對訓練集D進一步劃分,則將當前訓練集所在的節點標記為葉節點;以及
遍歷屬性集中的每一個屬性,選擇最優劃分屬性,將訓練集D劃分為若干子集Dv,如果Dv為空,則將包含訓練集D的分支節點標記為葉節點,類別記為訓練集D中樣本最多的類,構建結束,否則繼續遍歷。
6.根據權利要求5所述的用于醫療文本分類的決策樹構建裝置,其特征在于,所述屬性集A的構成包括:對訓練文本進行分詞,統計各個詞的詞頻,將每個詞作為屬性集A的組成。
7.根據權利要求6所述的用于醫療文本分類的決策樹構建裝置,其特征在于,所述屬性集A通過基尼指數劃分的方法獲取。
8.根據權利要求7所述的用于醫療文本分類的決策樹構建裝置,其特征在于,通過基尼指數劃分的方法,包括:
對于屬性集A中的每一個屬性,逐一計算各個屬性的基尼指數;以及
選取基尼指數值最小的屬性作為最終劃分集合屬性。
9.一種電子設備,其特征在于,包括:
存儲器,所述存儲器存儲執行指令;以及
處理器,所述處理器執行所述存儲器存儲的執行指令,使得所述處理器執行如權利要求1至4中任一項所述的方法。
10.一種可讀存儲介質,其特征在于,所述可讀存儲介質中存儲有執行指令,所述執行指令被處理器執行時用于實現如權利要求1至4中任一項所述的方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京中科凡語科技有限公司,未經北京中科凡語科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111296348.6/1.html,轉載請聲明來源鉆瓜專利網。





