[發明專利]互聯網文本實體識別方法、系統、電子設備及存儲介質在審
| 申請號: | 202110287954.5 | 申請日: | 2021-03-17 |
| 公開(公告)號: | CN113051921A | 公開(公告)日: | 2021-06-29 |
| 發明(設計)人: | 李濤;趙沖;駱飛;李青龍 | 申請(專利權)人: | 北京智慧星光信息技術有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F16/953;G06F40/242 |
| 代理公司: | 北京智宇正信知識產權代理事務所(普通合伙) 11876 | 代理人: | 李明卓 |
| 地址: | 100080 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 互聯網 文本 實體 識別 方法 系統 電子設備 存儲 介質 | ||
本發明公開了一種互聯網文本實體識別方法、系統、電子設備及存儲介質,該方法包括:將歷史互聯網文本輸入實體識別AI模型中得到初始化全量詞表;根據初始化全量詞表構建全量詞字典樹;根據實體識別AI模型和全量詞字典樹對實時抽樣互聯網文本進行識別處理得到精選詞表;根據精選詞表構建精選詞字典樹;按照預設中文斷句符號對待識別實時互聯網文本進行拆分得到拆分子句;將拆分子句與精選詞字典樹進行匹配得到匹配子句;將匹配子句按照預設順序進行拼接后輸入實體識別AI模型得到實體識別結果,按照實體類別進行類別輸出。根據精選詞表對待識別實時互聯網文本進行逐句篩選,只留下可能含有實體的句子,從而大幅度降低計算的文本量,降低了運行成本。
技術領域
本發明涉及文本數據處理領域,具體涉及到一種互聯網文本實體識別方法、系統、電子設備及存儲介質。
背景技術
實體識別是文本序列標注型任務中一個很重要的部分,其中文全稱為“命名實體識別”,英文名稱為“NER”,主要目的是實現文本中人名、組織名、專有名次、地名、作品名等信息的識別與提取。
隨著互聯網的發展,互聯網承載的文本數據也日益劇增,實體識別在越來越多的場景中需求日益迫切。對實體識別模型的識別效果和運算性能都提出更好更快的要求。
目前業內對實體識別的普遍做法是通過人工對文本進行海量的標注,然后以標注語料為依托,使用Bert/BiLSTM/TextCNN等神經網絡模型與CRF算法相結合實現NER模型,使用模型對需要NER識別的文本進行識別和結果輸出。
業界的普遍做法不但需要在起初使用大量的人力標注大量的文本,而且在模型初步使用后還需要持續投入人力進行badcase跟進記錄和重新標注;在實際項目持續投入的人力成本過高。使用的模型基本都是神經網絡和CRF算法的結合,所以在運行中普遍對運行環境要求較高,需要高性能GPU運行環境,在互聯網每日產生文本數據海量的情況下,模型需要大量的高性能服務器來滿足處理性能的要求,運行所需的服務器成本過高。
發明內容
有鑒于此,本發明實施例提供了一種互聯網文本實體識別方法、系統、電子設備及存儲介質,以以解決現有技術中實體識別運行成本過高的問題。
為此,本發明實施例提供了如下技術方案:
根據第一方面,本發明實施例提供了一種互聯網文本實體識別方法,包括:獲取實體識別AI模型;獲取歷史互聯網文本;將所述歷史互聯網文本輸入所述實體識別AI模型中進行實體識別,得到命名實體的第一識別結果;根據命名實體的第一識別結果得到命名實體所對應的初始化全量詞表;根據命名實體的初始化全量詞表構建命名實體所對應的全量詞字典樹;獲取實時抽樣互聯網文本;根據實體識別AI模型和全量詞字典樹對實時抽樣互聯網文本進行識別處理,得到命名實體的精選詞表;根據命名實體的精選詞表構建所對應的精選詞字典樹;獲取待識別實時互聯網文本;按照預設中文斷句符號對所述待識別實時互聯網文本進行拆分,得到拆分子句;將所述拆分子句與命名實體的精選詞字典樹進行匹配,得到所述匹配子句;將所述匹配子句按照預設順序進行拼接得到拼接文本;將所述拼接文本輸入所述實體識別AI模型進行實體識別,得到待識別實時互聯網文本的命名實體的實體識別結果;遍歷所述實體識別結果,按照實體類別進行類別輸出。
可選地,根據實體識別AI模型和全量詞字典樹對實時抽樣互聯網文本進行識別處理,得到命名實體的精選詞表的步驟中,包括:步驟S71:按照預設迭代數量對實時抽樣互聯網文本進行迭代拆分,得到當前迭代實時抽樣互聯網文本;步驟S72:將所述當前迭代實時抽樣互聯網文本輸入所述實體識別AI模型中進行實體識別,得到當前迭代的命名實體的第二識別結果;步驟S73:將所述當前迭代實時抽樣互聯網文本與命名實體的全量詞字典樹進行匹配,得到當前迭代的命名實體的實體抽樣匹配結果;步驟S74:對當前迭代的命名實體的第二識別結果和所對應的實體抽樣匹配結果進行處理得到當前迭代精選詞;步驟S75:將當前迭代精選詞存儲至命名實體的精選詞表中,并返回步驟S71。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京智慧星光信息技術有限公司,未經北京智慧星光信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110287954.5/2.html,轉載請聲明來源鉆瓜專利網。





