[發明專利]一種中文癥狀體征構成識別方法在審
| 申請號: | 201810292579.1 | 申請日: | 2018-04-04 |
| 公開(公告)號: | CN108563725A | 公開(公告)日: | 2018-09-21 |
| 發明(設計)人: | 葉琪;阮彤;王祺;曾露;翟潔 | 申請(專利權)人: | 華東理工大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06K9/62;G06N3/08 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 200237 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 癥狀體征 中文 漢字特征向量 標簽序列 詞性特征 神經網絡 特征向量 漢字 向量 標注 數據預處理 詞典生成 利用條件 人工數據 訓練過程 正確率 分解 機場 幫助 | ||
1.一種中文癥狀體征構成識別方法,其特征在于,包括:
(1)將中文癥狀體征分解為11種癥狀體征的構成成分,包括:原子癥狀、部位詞、中心詞、連接詞、否定詞、程度詞、情景限定詞、方位詞、感覺詞、特征詞、其它修飾詞;
(2)根據癥狀體征的構成成分為中文癥狀體征中的每個漢字標注,得到每個漢字表示癥狀體征的構成情況的標簽序列;
(3)對中文癥狀體征數據進行數據預處理,得到漢字特征向量和對應的詞性特征向量;
(4)將所述漢字特征向量和詞性特征向量傳入到LSTM神經網絡,利用雙向LSTM神經網絡來訓練得到輸入癥狀體征的特征向量;
(5)將所述癥狀體征的特征向量利用條件隨機場來對每個漢字進行標注,得到癥狀體征的標簽序列;
(6)在神經網絡的訓練過程中,利用已有的類型-成分詞典生成人工數據幫助訓練。
2.如權利要求1所述的一種中文癥狀體征構成識別方法,其特征在于,根據癥狀體征的構成成分為中文癥狀體征中的每個漢字標注,得到每個漢字表示癥狀體征的構成情況的標簽序列包括:
(1)令標簽分類為B_C、I_C、E_C、S_C,其中“_”是分隔符,“B”、“I”、“E”、“S”代表對應漢字在構成成分中所處的位置,“B”是代表構成成分的開頭漢字的符號,“I”是代表構成成分的非開頭漢字和結尾漢字的中間漢字的符號,“E”是代表構成成分的結尾漢字的符號;“S”是代表單個字是一個構成成分的符號,“C”有多個符號來表示,分別代表構成成分的類別;
(2)根據所述標簽分類為中文癥狀體征中的每個漢字標注,得到表示癥狀體征的構成情況的標簽序列。
3.如權利要求1所述的一種中文癥狀體征構成識別方法,其特征在于,對中文癥狀體征數據進行數據預處理,得到漢字特征向量和對應的詞性特征向量包括:
(1)將中文癥狀體征按漢字進行分割;
(2)對分割后的漢字進行統計,形成漢字表;
(3)對于出現次數少于所設閾值的漢字,將其從漢字表中剔除,并用一個未在漢字表中出現過的字符<OOV>來替換被剔除的漢字,將<OOV>加入漢字表;
(4)為漢字表中的每個漢字分別分配一個專屬的漢字特征向量和詞性特征向量,作為神經網絡中的輸入。
4.如權利要求1所述的中文癥狀體征構成識別方法,其特征在于,利用訓練語料或者已有詞典收集癥狀和體征的構成成分構建所述的類型-成分詞典。
5.如權利要求1所述的中文癥狀體征構成識別方法,其特征在于,所述人工數據是使用所述類型-成分詞典,對訓練語料中的每一個癥狀或體征,將其中的構成成分替換成詞典中相同類型的其它構成成分,并將新的癥狀體征加入到訓練集中。
6.如權利要求1所述的中文癥狀體征構成識別方法,其特征在于,所述漢字特征向量和詞性特征向量包括:預訓練的漢字特征向量和詞性特征向量或者隨機初始化并且由神經網絡訓練出的漢字特征向量和詞性特征向量。
7.如權利要求1所述的中文癥狀體征構成識別方法,其特征在于,所述詞性特征包括:位置無關詞性特征和位置有關詞性特征。
8.如權利要求1所述的中文癥狀體征構成識別方法,其特征在于,所述詞性特征的表示方式包括:獨熱編碼或分布式表示。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華東理工大學,未經華東理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810292579.1/1.html,轉載請聲明來源鉆瓜專利網。





