[發明專利]互聯網文本實體識別方法、系統、電子設備及存儲介質在審
| 申請號: | 202110287954.5 | 申請日: | 2021-03-17 |
| 公開(公告)號: | CN113051921A | 公開(公告)日: | 2021-06-29 |
| 發明(設計)人: | 李濤;趙沖;駱飛;李青龍 | 申請(專利權)人: | 北京智慧星光信息技術有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F16/953;G06F40/242 |
| 代理公司: | 北京智宇正信知識產權代理事務所(普通合伙) 11876 | 代理人: | 李明卓 |
| 地址: | 100080 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 互聯網 文本 實體 識別 方法 系統 電子設備 存儲 介質 | ||
1.一種互聯網文本實體識別方法,其特征在于,包括:
獲取實體識別AI模型;
獲取歷史互聯網文本;
將所述歷史互聯網文本輸入所述實體識別AI模型中進行實體識別,得到命名實體的第一識別結果;
根據命名實體的第一識別結果得到命名實體所對應的初始化全量詞表;
根據命名實體的初始化全量詞表構建命名實體所對應的全量詞字典樹;
獲取實時抽樣互聯網文本;
根據實體識別AI模型和全量詞字典樹對實時抽樣互聯網文本進行識別處理,得到命名實體的精選詞表;
根據命名實體的精選詞表構建所對應的精選詞字典樹;
獲取待識別實時互聯網文本;
按照預設中文斷句符號對所述待識別實時互聯網文本進行拆分,得到拆分子句;
將所述拆分子句與命名實體的精選詞字典樹進行匹配,得到所述匹配子句;
將所述匹配子句按照預設順序進行拼接得到拼接文本;
將所述拼接文本輸入所述實體識別AI模型進行實體識別,得到待識別實時互聯網文本的命名實體的實體識別結果;
遍歷所述實體識別結果,按照實體類別進行類別輸出。
2.根據權利要求1所述的互聯網文本實體識別方法,其特征在于,根據實體識別AI模型和全量詞字典樹對實時抽樣互聯網文本進行識別處理,得到命名實體的精選詞表的步驟中,包括:
步驟S71:按照預設迭代數量對實時抽樣互聯網文本進行迭代拆分,得到當前迭代實時抽樣互聯網文本;
步驟S72:將所述當前迭代實時抽樣互聯網文本輸入所述實體識別AI模型中進行實體識別,得到當前迭代的命名實體的第二識別結果;
步驟S73:將所述當前迭代實時抽樣互聯網文本與命名實體的全量詞字典樹進行匹配,得到當前迭代的命名實體的實體抽樣匹配結果;
步驟S74:對當前迭代的命名實體的第二識別結果和所對應的實體抽樣匹配結果進行處理得到當前迭代精選詞;
步驟S75:將當前迭代精選詞存儲至命名實體的精選詞表中,并返回步驟S71。
3.根據權利要求2所述的互聯網文本實體識別方法,其特征在于,步驟S74:對當前迭代的命名實體的第二識別結果和所對應的實體抽樣匹配結果進行處理得到當前迭代精選詞的步驟中,包括:
對當前迭代的命名實體的第二識別結果和實體抽樣匹配結果進行處理得到命名實體中每一個實體的共現度計算值和類TF-IDF值;
根據每一個實體的共現度計算值和類TF-IDF值對第二識別結果進行篩選,得到命名實體的當前迭代精選詞。
4.根據權利要求3所述的互聯網文本實體識別方法,其特征在于,根據每一個實體的共現度計算值和類TF-IDF值對第二識別結果進行篩選,得到命名實體的當前迭代精選詞的步驟中,包括:
判斷當前實體的共現度計算值是否大于預設共現度或者類TF-IDF值是否大于預設TF-IDF值;
若共現度計算值小于或者等于預設共現度或者類TF-IDF值小于或者等于預設TF-IDF值,則去除第二識別結果中的當前實體;
若共現度計算值大于預設共現度或者類TF-IDF值大于預設TF-IDF值,則保留第二識別結果中的當前實體;
將第二識別結果中所有保留下來的實體作為命名實體的當前迭代精選詞。
5.根據權利要求2所述的互聯網文本實體識別方法,其特征在于,步驟S73:將所述當前迭代實時抽樣互聯網文本與命名實體的全量詞字典樹進行匹配,得到當前迭代的命名實體的實體抽樣匹配結果的步驟之后,還包括:
步驟S76:將當前迭代的命名實體的第二識別結果逐條與所對應的初始化全量詞表進行對比,找到第二識別結果中與初始化全量詞表不匹配的實體詞;
步驟S77:將所述不匹配的實體詞添加至對應的初始化全量詞表中。
6.根據權利要求1-5中任一所述的互聯網文本實體識別方法,其特征在于,獲取實體識別AI模型的步驟中,包括:
獲取標注文本,并將所述標注文本作為訓練集;
采用BiLSTM+CRF的神經網絡結構對所述訓練集進行訓練,得到實體識別AI模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京智慧星光信息技術有限公司,未經北京智慧星光信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110287954.5/1.html,轉載請聲明來源鉆瓜專利網。





