[發明專利]生命科學文檔的自動分類和解釋在審
| 申請號: | 202010129780.5 | 申請日: | 2020-02-28 |
| 公開(公告)號: | CN111639178A | 公開(公告)日: | 2020-09-08 |
| 發明(設計)人: | 加里·肖特;巴里·阿倫斯 | 申請(專利權)人: | IQVIA公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35 |
| 代理公司: | 成都超凡明遠知識產權代理有限公司 51258 | 代理人: | 王暉;陳劍 |
| 地址: | 美國康*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 生命科學 文檔 自動 分類 解釋 | ||
1.一種用于對生命科學文檔進行分類和解釋的計算機實現的方法,所述方法包括:
接收所述生命科學文檔的數字化表示,所述數字化表示包括文檔元素,所述文檔元素包括文本或圖像中的一者或更多者;
對所述生命科學文檔的所述數字化表示進行文本分析,所述文本分析包括識別文本中的原始詞語;
對所述生命科學文檔的所述數字化表示進行構造分析,所述構造分析包括識別文檔上下文,所述文檔上下文描述文檔元素的特征以及文檔元素在所述生命科學文檔的頁面上的相對空間位置;
對所述生命科學文檔的所述數字化表示進行圖像分析,所述圖像分析包括對圖像進行識別并對所識別的所述圖像進行處理以提取文檔元素的附加特征;以及
集合地利用所述文本分析、所述構造分析和所述圖像分析的結果,以將所述生命科學文檔分類為一個或更多個預定義的類別。
2.根據權利要求1所述的計算機實現的方法,其中,所述相對空間位置包括頁眉、頁腳、說明文字、腳注或標題中的一者。
3.根據權利要求1所述的計算機實現的方法,其中,對上下文的識別還包括識別所述生命科學文檔的格式。
4.根據權利要求1所述的計算機實現的方法,其中,所述圖像分析還包括識別徽標、圖形、圖解、圖解文本或說明文字。
5.根據權利要求4所述的計算機實現的方法,其中,所述圖像分析還包括對所識別的所述徽標、所述圖形、所述圖解、所述圖解文本或所述說明文字中的一者或更多者進行解釋。
6.根據權利要求1所述的計算機實現的方法,其中,所述文檔元素的特征包括文本的字體、大小或格式中的一者。
7.根據權利要求1所述的計算機實現的方法,其中,所述構造分析還包括跟蹤鄰近的各個文檔元素的文本。
8.根據權利要求1所述的計算機實現的方法,其中,所述圖像分析還包括圖像到文本的轉換,以從圖像提取數字化形式的文本。
9.根據權利要求1所述的計算機實現的方法,還包括將所述生命科學文檔中的內容分類為一個或更多個預定義的類別。
10.根據權利要求1所述的計算機實現的方法,其中,所述文本分析包括跟蹤所述生命科學文檔中的文本的序列。
11.根據權利要求1所述的計算機實現的方法,其中,所述文本分析、所述構造分析或所述圖像分析中的一者或更多者生成與所述生命科學文檔相關聯的元數據,其中,所述元數據至少部分地用于執行所述分類。
12.根據權利要求1所述的計算機實現的方法,其中,所述一個或更多個預定義的類別包括由藥物信息協會定義的類別。
13.根據權利要求1所述的計算機實現的方法,還包括用標簽標記所述生命科學文檔,所述標簽包括分類標簽和事件標簽。
14.根據權利要求13所述的計算機實現的方法,其中,所述事件標簽被配置成用于作為觸發器或警報來操作。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于IQVIA公司,未經IQVIA公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010129780.5/1.html,轉載請聲明來源鉆瓜專利網。





