[發明專利]人類表型標準用語提取方法在審
| 申請號: | 201911287912.0 | 申請日: | 2019-12-15 |
| 公開(公告)號: | CN112992303A | 公開(公告)日: | 2021-06-18 |
| 發明(設計)人: | 楊亞平;于惠;李廣震;王夏;徐衛志 | 申請(專利權)人: | 蘇州市愛生生物技術有限公司 |
| 主分類號: | G16H10/60 | 分類號: | G16H10/60;G06F40/289;G06F40/247;G06F16/903 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 江蘇省蘇州市吳中經濟開發區*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 人類 表型 標準 用語 提取 方法 | ||
1.一種人類表型標準用語的提取方法,包括如下步驟:
(1)對電子病歷數據進行分析提取,獲得疾病特征字符串;
(2)將疾病特征字符串與人類表型標準用語庫中的每個記錄進行字符串匹配,標記出疾病特征字符串與人類表型標準用語庫中每個記錄的匹配關系,生成對齊文件;
(3)對生成的對齊文件進行塊劃分,得到塊劃分文件;
(4)根據塊劃分文件進行熵計算,獲得疾病特征字符串與人類表型標準用語庫中每個記錄的相似度,根據最高相似度提取對應的人類表型標準用語。
2.如權利要求1所述的人類表型標準用語的提取方法,其特征在于,步驟(1)中對電子病歷數據進行分析提取包括:首先按照第一類標點符號和否定詞進行第一級切分,然后在第一級切分結果中,若出現否定詞則直接篩除,然后在這個基礎上按照第二類標點符號以及連接詞進行第二級拆分,從而得到疾病特征字符串;其中,第一類標點符號包括句號、感嘆號和分號,第二類標點符號包括逗號和頓號。
3.如權利要求1所述的人類表型標準用語的提取方法,其特征在于,所述人類表型標準用語庫包括:人類表型標準用語的名稱及其定義,以及人類表型標準用語的同義詞。
4.如權利要求1所述的人類表型標準用語的提取方法,其特征在于,步驟(2)中所述生成對齊文件的步驟包括:首先,標記出在疾病特征字符串和人類表型標準用語庫中每個記錄的匹配情況,在標記出所有的匹配關系之后,在匹配關系的集合中,通過一定的規則找出對齊,所述規則為:每一個匹配都對應著疾病特征字符串與人類表型標準用語庫中的記錄的一條連線;對于每個記錄,選取交叉線最少的一組匹配關系,作為該記錄與疾病特征字符串的對齊。
5.如權利要求1所述的人類表型標準用語的提取方法,其特征在于,步驟(3)中所述塊劃分方法是將對齊文件劃分為塊,要求每個塊內的兩個字符串中匹配上的詞在疾病特征字符串內的位置是連續的,并且映射到人類表型標準用語庫中的記錄上的位置也是連續的,并且每個塊應為最大連續的字符串匹配,從而得到塊劃分文件。
6.如權利要求1所述的人類表型標準用語的提取方法,其特征在于,步驟(4)中所述熵計算包括:根據塊劃分文件的分塊信息計算熵,對熵進行歸一化,結合歸一化的熵和F度量值得到疾病特征字符串與人類表型標準用語庫中每個記錄的相似度。
7.如權利要求6所述的人類表型標準用語的提取方法,其特征在于,根據塊劃分文件的分塊信息計算熵的公式為:其中,li代表第i個塊的長度,即詞的個數;c代表塊的個數;L代表所有匹配上的詞的個數。
8.如權利要求6所述的人類表型標準用語的提取方法,其特征在于,對熵進行歸一化的計算公式為:entropy=e-H。
9.如權利要求6所述的人類表型標準用語的提取方法,其特征在于,結合歸一化的熵和F度量值得到疾病特征字符串與人類表型標準用語庫中每個記錄的相似度的計算方法包括:
步驟A:用F度量值評價疾病特征字符串和人類表型標準用語庫中每個記錄的一致性,計算公式為:其中,β為精確率分配的權重,0﹤β﹤1,precision是精確率,recall是召回率;
步驟B:將F度量值引入entropy中,通過結合歸一化的熵和F度量值得到疾病特征字符串與人類表型標準用語庫中的每個記錄的相似度Sim,計算公式為:
Sim=e-H×F-score。
10.如權利要求9所述的人類表型標準用語的提取方法,其特征在于,β為1/2。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘇州市愛生生物技術有限公司,未經蘇州市愛生生物技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911287912.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種茯苓生產用取樣檢測裝置
- 下一篇:一種玻璃運輸固定架





