[發明專利]文本的實體識別方法、裝置、電子設備和存儲介質有效
| 申請號: | 202011294254.0 | 申請日: | 2020-11-18 |
| 公開(公告)號: | CN112464667B | 公開(公告)日: | 2021-11-16 |
| 發明(設計)人: | 郭韋良;陽曉文;張榮馳;何小蓮;鄧奕 | 申請(專利權)人: | 北京華彬立成科技有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/284;G06F40/211;G06F40/242 |
| 代理公司: | 北京清亦華知識產權代理事務所(普通合伙) 11201 | 代理人: | 韓海花 |
| 地址: | 102206 北京市昌平區科*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 實體 識別 方法 裝置 電子設備 存儲 介質 | ||
本申請提出一種文本的實體識別方法、裝置、電子設備和存儲介質,涉及數據處理技術領域,其中,方法包括:獲取待處理文本;其中,待處理文本為至少兩種語言混合文本;根據語言類別獲取分句工具,并通過分句工具對待處理文本進行分句處理,獲取多個待處理句子;對多個待處理句子進行切詞處理,獲取多個待處理分詞,并將多個待處理分詞拼接成目標長度的字符串;在目標長度大于預設長度閾值時,基于詞典的詞條對多個待處理分詞進行匹配標注,獲取實體識別結果。由此,實現對多語言混合文本的實體識別,以及能夠提高對過長文本的實體識別的精準性。
技術領域
本申請涉及數據處理技術領域,尤其涉及一種文本的實體識別方法、裝置電子設備和存儲介質。
背景技術
目前,隨著醫療衛生領域的不斷發展,醫療衛生領域不同來源不同格式的數據不斷涌現出來,這些大數據中隱藏著大量可以被識別和挖掘的信息。作為醫療數據分析的最重要的一步,醫療實體識別(特別是疾病類實體識別)可以抽取出相關文本中存在的醫療術語,對后續的研究起到重要作用。由于不同來源醫療文本存在不同的問題,比如:以中文為主體的醫藥類文獻中的常常摻雜著英文描述的疾病詞,靶點詞等;醫藥類專利文本中常常存在描述語句過長等現象。
相關技術中,以多語言編碼微調模型BERT為首的或BERT變體的算法成為了NLP(Natural Language Processing,自然語言處理)領域新的技術標桿,其中包括實體識別。然而,以BERT為代表的預訓練微調的方案對基于英語數據微調的BERT模型無法直接遷移應用到中文數據的預測上,且對超長句子面臨輸入文本數據被截斷而無法完整識別的問題,以及對和疾病靶點識別特定場景有關的細節預處理不夠精準。
發明內容
本申請旨在至少在一定程度上解決相關技術中的技術問題之一。
為此,本申請的第一個目的在于提出一種文本的實體識別方法,以實現對多語言混合文本的實體識別,以及能夠提高對過長文本的實體識別的精準性,解決現有技術中對超長句子面臨輸入文本數據被截斷而無法完整識別,以及識別結果不夠精準的技術問題。
本申請的第二個目的在于提出一種文本的實體識別裝置。
本申請的第三個目的在于提出一種計算機設備。
本申請的第四個目的在于提出一種非臨時性計算機可讀存儲介質。
本申請的第五個目的在于提出一種計算機程序產品。
為達上述目的,本申請第一方面實施例提出了一種文本的實體識別方法,包括:
獲取待處理文本;其中,所述待處理文本為至少兩種語言混合文本;
根據語言類別獲取分句工具,并通過分句工具對所述待處理文本進行分句處理,獲取多個待處理句子;
對所述多個待處理句子進行切詞處理,獲取多個待處理分詞,并將所述多個待處理分詞拼接成目標長度的字符串;
在所述目標長度大于預設長度閾值時,基于詞典的詞條對所述多個待處理分詞進行匹配標注,獲取實體識別結果,其中,所述預設長度閾值用于判斷所述多個待處理分詞的實體識別處理方式,所述判斷所述多個待處理分詞的實體識別處理方式具體包括:若所述目標長度超過所述預設長度閾值,則調用基于詞典自動標注系統DALS模塊基于詞典的詞條進行匹配標注,獲取實體識別結果,若所述目標長度未超過預設長度閾值,則調用多語言編碼微調模型進行實體識別,獲取實體識別結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京華彬立成科技有限公司,未經北京華彬立成科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011294254.0/2.html,轉載請聲明來源鉆瓜專利網。





