[發明專利]用于語義信息可視化和指示生命科學實體之間顯著關聯的時間信號推斷的系統、方法和計算機可讀介質在審
| 申請號: | 201780071846.6 | 申請日: | 2017-09-22 |
| 公開(公告)號: | CN109964224A | 公開(公告)日: | 2019-07-02 |
| 發明(設計)人: | 穆拉利·阿拉瓦穆丹;溫卡塔拉馬南·桑達拉賈;阿吉特·拉賈耶克哈蘭;普拉桑·葉琳娜;阿爾俊·普拉尼克;阿什文·穆拉利;威廉·吉普森;恩里克·加西亞-里維拉;卡西克·穆盧加多斯 | 申請(專利權)人: | 恩芙潤斯公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06N5/02;G16B50/00 |
| 代理公司: | 北京品源專利代理有限公司 11332 | 代理人: | 王小衡;王天鵬 |
| 地址: | 美國馬*** | 國省代碼: | 美國;US |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語義實體 關聯 語義 語義關聯 計算機可讀介質 集合 語義信息 時間片 知識庫 生命科學 時間信號 可視化 時間段 嵌入 推斷 輸出 檢測 | ||
1.一種檢測語義實體之間的關聯的方法,包括:
識別一個或多個知識庫中存在的語義實體和相關聯的語義集合,其中所述語義實體包括單個詞或多詞短語中的一個或多個,并且語義集合的所述語義實體共享實體類型;
確定用于分析的時間段;
將所述時間段劃分成一個或多個時間片;
基于一個或多個語料庫為每個時間片生成所述識別的語義實體的一組詞嵌入;
為每個時間片確定第一語義實體輸入和第二語義實體輸入之間的第一語義關聯強度;
為每個時間片確定所述第一語義實體輸入和語義集合中的多個語義實體之間的第二語義關聯強度,所述語義集合與所述第二語義實體相關聯;以及
基于所述一個或多個時間片的所述第一和第二語義關聯強度提供輸出。
2.根據權利要求1所述的方法,其中所述一個或多個語料庫包括結構化數據和非結構化數據。
3.根據權利要求1所述的方法,其中識別語義實體包括以下一個或多個:(1)將一個或多個單個詞或多詞短語識別為屬于語義集合的語義實體的自動方法,和(2)從所述一個或多個知識庫中強制選擇一個或多個單個詞或多詞短語。
4.根據權利要求3所述的方法,其中從由結構化數據庫編譯的信息中強制選擇所述一個或多個單個詞或多詞短語。
5.根據權利要求1所述的方法,其中在所述時間段內對所述一個或多個知識庫中的所有文本進行語義實體識別。
6.根據權利要求1所述的方法,其中所述詞嵌入是使用Word2vec、AdaGram、fastText和Doc2vec中的一個或多個生成的。
7.根據權利要求1所述的方法,其中獨立于為其他時間片生成的詞嵌入,為每個時間片生成所述詞嵌入。
8.根據權利要求1所述的方法,其中利用先前時間片的詞嵌入生成時間片的所述詞嵌入。
9.根據權利要求1所述的方法,其中與所述語義集合相關聯的所述多個語義實體不包括所述第二語義實體,所述語義集合與所述第二語義實體相關聯。
10.根據權利要求1所述的方法,其中所述第二語義關聯強度是所述第一語義實體輸入和與語義集合相關聯的所述多個語義實體之間的一組語義關聯強度的平均值、中位數或百分位數,所述語義集合與所述第二語義實體相關聯。
11.根據權利要求1所述的方法,進一步包括:
檢測第一時間片的所述第一語義關聯強度相對于隨后的第二時間片的所述第一語義關聯強度的增量;和
確定所述第一語義關聯強度的所述增量相對于所述相應的第二語義關聯是否具有統計顯著性。
12.根據權利要求11所述的方法,其中基于p值來確定所述增量的所述統計顯著性,所述p值用作所述第一語義關聯強度相對于所述對應的第二語義關聯的統計顯著性的度量。
13.根據權利要求1所述的方法,進一步包括:
基于所述一個或多個知識庫中所述第一實體和所述第二實體之間的共現水平來選擇所述第一實體輸入和所述第二實體輸入。
14.根據權利要求13所述的方法,其中所述第一實體和所述第二實體之間的所述共現水平為零。
15.根據權利要求1所述的方法,進一步包括:
從用戶接收所述第一實體輸入和所述第二實體輸入。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于恩芙潤斯公司,未經恩芙潤斯公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201780071846.6/1.html,轉載請聲明來源鉆瓜專利網。





