[發明專利]命名實體識別系統的實體類型識別在審
| 申請號: | 202080021811.3 | 申請日: | 2020-03-23 |
| 公開(公告)號: | CN113597611A | 公開(公告)日: | 2021-11-02 |
| 發明(設計)人: | J.布里奧迪;J.伊索-西皮拉;O.奧克斯勒;T.托吉亞 | 申請(專利權)人: | 伯耐沃倫人工智能科技有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295 |
| 代理公司: | 北京市柳沈律師事務所 11105 | 代理人: | 萬里晴 |
| 地址: | 英國*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 命名 實體 識別 系統 類型 | ||
提供用于文本語料庫內的實體的實體類型識別和/或消歧的方法、設備和系統,所述方法包含:接收一個或多個實體結果,每個實體結果包括表示所識別實體和所述所識別實體在所述文本語料庫內的位置的數據;通過將所述文本語料庫中與所述每個實體的所述位置相關聯的文本輸入到經過訓練的實體類型(ET)模型來識別接收到的實體結果中的每個實體的實體類型,所述經過訓練的ET模型配置成從所述文本語料庫預測或提取所述每個實體的實體類型;以及輸出表示所述接收到的實體結果中的每個實體的所識別實體類型的數據。
技術領域
本申請涉及一種用于根據例如文本語料庫的大規模數據集識別實體時執行命名實體識別系統的實體類型識別的系統和方法。
背景技術
一個或多個領域中的數據或文本語料庫等大規模數據集內的實體識別,例如僅作為實例但不受限的生物信息學或化學信息文獻(例如,由例如僅作為實例但不受限的PubMed的各種源存儲的出版物),對于識別實體類型、所關注實體和/或它們之間的對應實體關系來說很重要。大規模數據集或數據/文本語料庫可以包括或表示來自一個或多個數據源、內容源、內容提供者等等的任何信息或數據,并且可包含僅作為實例但不限于非結構化數據/文本、結構化數據/文本、文本正文、文章、出版物、文獻、文檔、文本、電子郵件、圖像和/或視頻,或者可含有大量信息的任何其它信息或數據。此數據可由一個或多個源、內容源/提供者或多個源(例如,PubMed、MEDLINE、維基百科)編譯、由其生成和/或與其一起/或由其存儲,并且可用于形成大規模數據集或數據/文本語料庫,從中可提取實體、實體類型和所關注關系。此類大規模數據集或數據/文本語料庫可包含來自一個或多個數據源的數據或信息,其中每個數據源可提供表示多個非結構化和/或結構化文本/文檔、文檔、文章或文獻等等的數據。盡管來自出版商、內容提供者/源的大部分文檔、文章或文獻具有特定的文檔格式/結構,例如,PubMed文檔存儲為XML,其中具有關于作者、期刊、出版日期及文檔中的章節和段落的信息,但是此類文檔可被視為數據/文本語料庫的部分。為簡單起見,大規模數據集或數據/文本語料庫在本文中稱為僅作為實例但不限于文本語料庫。
可以使用傳統的命名實體識別(NER)系統來識別和提取實體、實體類型和/或實體/實體類型在文本語料庫內出現的位置。這些NER系統使用根據文本語料庫的多個源手動整理的實體詞典。每個實體詞典可以存儲多個特定實體類型的實體名稱,并且與文本匹配技術一起用于從文本或文獻語料庫識別和提取“實體”的名稱和類型。舉例來說,在生物信息學上下文中,可以從包含僅作為實例但不限于與“白血病”相關聯的PubMed/MEDLINE/維基百科出版物的文本語料庫內的文本正文識別具有“疾病”類型的命名為“白血病”的實體。為了使這些NER系統能夠運行,實體詞典需要不斷地手動更新、整理和標注,以便可靠地匹配和識別文本語料庫的各部分內的已知實體。隨著文學或科學研究的主體的增加以及由此引起的文本語料庫的增加,此類NER系統很少是最新的,因為它們無法適應最新的、創建的或發現的實體;或無法識別或適應當前實體術語和/或實體類型的任何非標準化或替代性使用。這會導致對依賴NER的下游過程產生不利的不正確或不明確的實體結果。
此外,通常使用實體類型的經整理實體詞典來實現從文本語料庫識別和提取實體的NER系統這樣做通常是不受上下文影響的,而是嚴重依賴于對實體詞典的正確整理和更新。但是,當不同類型的實體在不同文檔中具有相同名稱時,實體結果可包含歧義。這意味著當文本中包含具有特定實體和實體類型的字符串的部分實際上指代的是不同實體類型或子類型的相同命名實體時,此類NER系統可能會錯誤地識別此字符串。或者,當出現歧義時,此類NER系統可默認為特定實體類型,希望特定實體類型的實體的最普遍使用是正確的。因此,由其中所識別的實體可具有超過一個實體類型的基于詞典的NER系統提供的實體結果可能會為所識別的實體選擇錯誤的實體類型。例如,化學元素銀可以簡稱為“Ag”,其可定義為化學類型的實體,而蛋白質途徑抗原也可以簡稱為“Ag”,其可定義為蛋白質類型的實體。因此,經典/傳統的NER系統可能會將在部分文本中的字符串“Ag”錯誤地識別為銀——化學類型的實體,但此字符串“Ag”實際上可能與抗原——蛋白質類型的實體——相關聯。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于伯耐沃倫人工智能科技有限公司,未經伯耐沃倫人工智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202080021811.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:六氟化鎢的制造方法、其純化方法和六氟化鎢
- 下一篇:收納裝置





