[發(fā)明專利]一種語句歸類方法及裝置有效
| 申請?zhí)枺?/td> | 201711448094.9 | 申請日: | 2017-12-27 |
| 公開(公告)號: | CN108009157B | 公開(公告)日: | 2021-04-27 |
| 發(fā)明(設計)人: | 胡文鳳;胡可云;陳聯(lián)忠 | 申請(專利權)人: | 北京嘉和海森健康科技有限公司 |
| 主分類號: | G06F40/284 | 分類號: | G06F40/284;G06F16/35;G06K9/62 |
| 代理公司: | 北京集佳知識產(chǎn)權代理有限公司 11227 | 代理人: | 王寶筠 |
| 地址: | 100085 北京市海淀區(qū)上*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 語句 歸類 方法 裝置 | ||
本申請實施例公開了一種語句歸類方法,方法包括:獲取病歷文本,并對病歷文本中的語句進行分割,得到若干個子句;對若干個子句進行分詞,得到每一個子句的分詞結果;根據(jù)每一個子句的分詞結果以及屬性詞語概率表得到每一個子句屬于各個屬性的概率;基于每一個子句屬于各個屬性的概率確定每一個子句的待定屬性;若存在至少兩個相鄰的且待定屬性相同的子句,則將至少兩個相鄰的且待定屬性相同的子句歸為一類。這樣,可以將不同類別的子句分開提取,避免了在結構化提取過程中會出現(xiàn)差錯,進而提高了結構化提取的準確性,使得能夠對一句話中的多個子句進行準確地結構化提取。
技術領域
本申請涉及大數(shù)據(jù)領域,尤其涉及一種語句歸類方法及裝置。
背景技術
電子病歷(Electronic Medical Record,簡稱EMR)是基于計算機的病人記錄(Computer-Based Patient Record,簡稱CPR),它是用電子設備保存、管理、傳輸和重現(xiàn)的數(shù)字化的病人的醫(yī)療記錄。電子病歷的普及極大地方便了醫(yī)生了解、跟進病人的詳細情況以及基于病歷統(tǒng)計分析的臨床決策等功能的實現(xiàn)。由于臨床決策等功能的實現(xiàn)都是以結構化數(shù)據(jù)為依據(jù)的,但是電子病歷是由結構化和非結構化數(shù)據(jù)共同組成,且其中絕大多數(shù)非常重要的信息都是以非結構化的形式保存的(如入院記錄中的現(xiàn)病史、主訴等)。因此,充分利用電子病歷的信息的前提是將非結構化數(shù)據(jù)進行結構化提取,而提取準確的結構化信息的前提是將書寫不規(guī)范的病歷規(guī)范化。
常見的書寫不規(guī)范的病歷,是將多個屬性的信息,用多個子句的形式,放在一句話里描述。例如,“腸鳴音正常,4次/分,雙下肢輕度可凹性浮腫。”在這句話中一共包括三個子句,其中前兩個子句“腸鳴音正常,4次/分”描述的是腹部的特征,而第三個子句“雙下肢輕度可凹性浮腫”描述的是四肢的特征,這兩個不同部位放在一句話中描述,在結構化提取過程中會出現(xiàn)差錯,正確的做法應該是將描述這兩個部位的特征分開提取,即將前兩個子句一起提取,第三個子句單獨提取。所以如何將一句話包括的多個子句進行歸類,以便能夠準確的進行結構化的提取是目前需要解決的問題。
發(fā)明內容
有鑒于此,本申請實施例的主要目的在于提供一種語句歸類方法及裝置,能夠提高結構化提取的準確性,使得能夠對一句話中的多個子句進行準確地結構化提取。
第一方面,本申請?zhí)峁┝艘环N語句歸類方法,所述方法包括:
獲取病歷文本,并對所述病歷文本中的語句進行分割,得到若干個子句;
對所述若干個子句進行分詞,得到每一個子句的分詞結果;
根據(jù)所述每一個子句的分詞結果以及屬性詞語概率表得到每一個子句屬于各個屬性的概率,所述屬性詞語概率表體現(xiàn)各個詞語分別表達不同屬性的概率;
基于所述每一個子句屬于各個屬性的概率確定每一個子句的待定屬性;
若存在至少兩個相鄰的且待定屬性相同的子句,則將所述至少兩個相鄰的且待定屬性相同的子句歸為一類。
可選的,所述基于所述每一個子句屬于各個屬性的概率確定每一個子句的待定屬性,包括:
針對所述每一個子句,將該子句屬于各個屬性的概率由高到低進行排名,得到該子句的概率排名;
確定所述概率排名中的前N個屬性,并將所述前N個屬性作為該子句的待定屬性;其中,N為正整數(shù)。
可選的,若所述若干個子句包括第一子句,且所述第一子句的待定屬性包括第一待定屬性;則將所述第一待定屬性作為當前待定屬性;其中,所述第一待定屬性在所述第一子句的概率排名中的名次最高;
若所述若干個子句還包括第二子句,且所述第一子句和所述第二子句相鄰,以及所述第二子句的位置在所述第一子句之前,則所述若存在至少兩個相鄰的且待定屬性相同的子句,則將所述至少兩個相鄰的且待定屬性相同的子句歸為一類,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京嘉和海森健康科技有限公司,未經(jīng)北京嘉和海森健康科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711448094.9/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。





