[發(fā)明專利]用于從電子文檔提取信息的方法和系統(tǒng)有效
| 申請?zhí)枺?/td> | 201310059415.1 | 申請日: | 2013-02-26 |
| 公開(公告)號: | CN103294764B | 公開(公告)日: | 2016-11-16 |
| 發(fā)明(設(shè)計)人: | T·F·希達(dá)-馬穆德;L·基蒂卡留 | 申請(專利權(quán))人: | 國際商業(yè)機(jī)器公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京市中咨律師事務(wù)所 11247 | 代理人: | 于靜;張亞非 |
| 地址: | 美國*** | 國省代碼: | 美國;US |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 用于 電子 文檔 提取 信息 方法 系統(tǒng) | ||
1.一種用于從電子文檔提取信息的方法,所述方法包括:
從訓(xùn)練語料庫學(xué)習(xí)術(shù)語和術(shù)語變體,其中所述術(shù)語和所述術(shù)語變體對應(yīng)于與所述訓(xùn)練語料庫相關(guān)的專用詞典;
生成在所述訓(xùn)練語料庫中找到的否定指示符的列表;
在一組電子文檔中執(zhí)行所述術(shù)語和所述術(shù)語變體的部分匹配以產(chǎn)生初始匹配結(jié)果;以及
針對所述初始匹配結(jié)果使用所述否定指示符執(zhí)行否定測試并使用所述術(shù)語和所述術(shù)語變體執(zhí)行肯定術(shù)語測試,以便從所述初始匹配結(jié)果中刪除使所述否定測試或所述肯定術(shù)語測試失敗的匹配,從而產(chǎn)生最終匹配結(jié)果。
2.根據(jù)權(quán)利要求1的方法,其中生成所述否定指示符的列表進(jìn)一步包括:
使用N元語法參數(shù)在所述訓(xùn)練語料庫中搜索所述否定指示符,其中所述N元語法參數(shù)確定在其中找到所述否定指示符的每個短語的最大連續(xù)單詞數(shù)量。
3.根據(jù)權(quán)利要求2的方法,其中執(zhí)行所述肯定術(shù)語測試進(jìn)一步包括:
根據(jù)所述N元語法參數(shù)在所述最大數(shù)量的單詞中搜索術(shù)語修飾符,其中所述術(shù)語修飾符修改所述術(shù)語和所述術(shù)語變體。
4.根據(jù)權(quán)利要求1的方法,其中學(xué)習(xí)所述術(shù)語和術(shù)語變體進(jìn)一步包括學(xué)習(xí)每個術(shù)語和術(shù)語變體的通用前綴,其中每個通用前綴對單個單詞是唯一的。
5.根據(jù)權(quán)利要求4的方法,其中執(zhí)行所述部分匹配進(jìn)一步包括將每個術(shù)語和術(shù)語變體的所述通用前綴與所述一組電子文檔相匹配。
6.根據(jù)權(quán)利要求1的方法,其中執(zhí)行所述部分前綴匹配進(jìn)一步包括:
將所述一組電子文檔劃分成句子;
確定每個句子的最長通用子綴得分,其中所述最長通用子綴得分對應(yīng)于每個句子的最大術(shù)語和術(shù)語變體匹配子集;以及
保留具有高于預(yù)定閾值的最長通用子綴得分的句子。
7.根據(jù)權(quán)利要求1的方法,還包括:
在執(zhí)行所述部分匹配之前手動完善從所述訓(xùn)練語料庫中學(xué)習(xí)的所述術(shù)語和所述術(shù)語變體,其中電子文檔包括臨床報告。
8.一種短語匹配系統(tǒng),所述系統(tǒng)包括:
訓(xùn)練引擎,其被配置為:
從訓(xùn)練語料庫學(xué)習(xí)術(shù)語和術(shù)語變體,其中所述術(shù)語和所述術(shù)語變體對應(yīng)于與所述訓(xùn)練語料庫相關(guān)的專用詞典;以及
生成在所述訓(xùn)練語料庫中找到的否定指示符的列表;以及匹配引擎,其被配置為:
在一組電子文檔中執(zhí)行所述術(shù)語和所述術(shù)語變體的部分匹配以產(chǎn)生初始匹配結(jié)果;以及
針對所述初始匹配結(jié)果使用所述否定指示符執(zhí)行否定測試并使用所述術(shù)語和所述術(shù)語變體執(zhí)行肯定術(shù)語測試,以便從所述初始匹配結(jié)果中刪除使所述否定測試或所述肯定術(shù)語測試失敗的匹配,從而產(chǎn)生最終匹配結(jié)果。
9.根據(jù)權(quán)利要求8的系統(tǒng),其中生成所述否定指示符進(jìn)一步包括:
使用N元語法參數(shù)在所述訓(xùn)練語料庫中搜索所述否定指示符,其中所述N元語法參數(shù)確定在其中找到所述否定指示符的每個短語的最大連續(xù)單詞數(shù)量。
10.根據(jù)權(quán)利要求9的系統(tǒng),其中執(zhí)行所述肯定術(shù)語測試進(jìn)一步包括:
根據(jù)所述N元語法參數(shù)在所述最大數(shù)量的單詞中搜索術(shù)語修飾符,其中所述術(shù)語修飾符修改所述術(shù)語和所述術(shù)語變體。
11.根據(jù)權(quán)利要求8的系統(tǒng),其中學(xué)習(xí)所述術(shù)語和術(shù)語變體進(jìn)一步包括學(xué)習(xí)每個術(shù)語和術(shù)語變體的通用前綴,其中每個通用前綴對單個單詞是唯一的。
12.根據(jù)權(quán)利要求11的系統(tǒng),其中執(zhí)行所述部分匹配進(jìn)一步包括將每個術(shù)語和術(shù)語變體的所述通用前綴與所述一組電子文檔相匹配。
13.根據(jù)權(quán)利要求8的系統(tǒng),其中執(zhí)行所述部分前綴匹配進(jìn)一步包括:
將所述一組電子文檔劃分成句子;
確定每個句子的最長通用子綴得分,其中所述最長通用子綴得分對應(yīng)于每個句子的最大術(shù)語和術(shù)語變體匹配子集;以及
保留具有高于預(yù)定閾值的最長通用子綴得分的句子。
14.根據(jù)權(quán)利要求8的系統(tǒng),其中所述訓(xùn)練引擎被進(jìn)一步配置為:
接收輸入以便手動完善從所述訓(xùn)練語料庫中學(xué)習(xí)的所述術(shù)語和所述術(shù)語變體,其中電子文檔包括臨床報告。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于國際商業(yè)機(jī)器公司,未經(jīng)國際商業(yè)機(jī)器公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310059415.1/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





