[發明專利]一種實體標簽的識別方法及相關設備有效
| 申請號: | 201910335748.X | 申請日: | 2019-04-24 |
| 公開(公告)號: | CN110069781B | 公開(公告)日: | 2022-11-18 |
| 發明(設計)人: | 趙知緯 | 申請(專利權)人: | 北京奇藝世紀科技有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/30;G06F40/289 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 王寶筠 |
| 地址: | 100080 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 實體 標簽 識別 方法 相關 設備 | ||
本發明實施例提供了一種實體標簽的識別方法及相關設備,用于識別文本的實體標簽,以便于更好的理解用戶的搜索意圖,提高用戶體驗。該方法包括:對目標文本進行分詞,得到目標分詞集合;對所述目標分詞集合中的每個分詞進行向量化處理;將向量化處理后的所述目標分詞集合中的每個分詞輸入第一預設模型,以得到所述目標文本對應的各個語義塊組合的概率值;確定目標語義塊組合中每個語義塊的向量;將所述目標語義塊組合中每個語義塊的向量輸入第二預設模型,以得到所述目標語義塊組合中每個語義塊的實體標簽的概率值;將所述目標語義塊組合中每個語義塊的概率值達到第二預設閾值的實體標簽確定為所述目標語義塊組合中每個語義塊的實體標簽。
技術領域
本發明涉及自然語言處理領域,特別涉及一種實體標簽的識別方法及相關設備。
背景技術
在傳統的實體識別任務里,基于條件隨機場(Conditional Random Fields,CRF)模型的序列標注方法是最為常用的方法。這類方法一般首先根據輸入文本的字/詞序列創建一種或多種特征序列,然后定義一系列的特征模板用于規范在這一種或多種特征序列里的要抽取的特征以及特征組合,最后把抽取到的序列的特征輸入到CRF中得到的序列標簽里,就包含了實體的邊界信息以及類別信息。
近年來,隨著神經網絡的再次興起,許多自然語言處理(Natural LanguageProcessing,NLP)任務都借由神經網絡而達到了更好的效果,實體識別也是其中之一。在通用領域的實體識別任務里,目前基于神經網絡的實體識別方法多數都是基于循環神經網絡(Recurrent Neural Network,RNN)、卷積神經網絡(Convolutional Neural Networks,CNN)或者與CRF的結合的方法。
但是由于視頻領域實體存在通用領域實體所沒有的特點,直接套用通用領域的方法不能有效提高視頻領域實體識別的效果。
發明內容
本發明實施例提供了一種實體標簽的識別方法及相關設備,用于識別文本的實體標簽,以便于更好的理解用戶的搜索意圖,提高用戶體驗。
本發明實施例第一方面提供了一種實體標簽的識別方法,包括:
對目標文本進行分詞,得到目標分詞集合,所述目標文本為待識別實體標簽的文本;
對所述目標分詞集合中的每個分詞進行向量化處理;
將向量化處理后的每個分詞輸入第一預設模型,以得到所述目標文本對應的各個語義塊組合的概率值,所述第一預設模型為通過第一模型對訓練數據進行訓練得到的,所述訓練數據包括訓練文本集合中每個文本對應的分詞的向量,且所述訓練文本集合中每個文本為經過人工標注實體標簽序列的文本,所述各個語義塊組合中的每個語義塊中至少包括一個所述目標分詞集合中的分詞;
確定目標語義塊組合中每個語義塊的向量,所述目標語義塊組合為所述目標文本對應的各個語義塊組合中概率值達到第一預設閾值的語義塊組合;
將所述目標語義塊組合中每個語義塊的向量輸入第二預設模型,以得到所述目標語義塊組合中每個語義塊的實體標簽的概率值,所述第二預設模型為通過第二模型對所述第一模型輸出的第一目標語義塊組合中每個語義塊的向量進行訓練得到的,所述第一目標語義塊組合為所述每個文本對應的語義塊組合中概率值達到所述第一預設閾值的語義塊組合,所述第一目標語義塊組合中每個語義塊至少包括一個所述每個文本對應的分詞;
將所述目標語義塊組合中每個語義塊的概率值達到第二預設閾值的實體標簽確定為所述目標語義塊組合中每個語義塊的實體標簽。
可選地,所述第一模型為基于半馬爾科夫的條件隨機場模型,所述第二模型為自注意力模型,所述方法還包括:
對所述每個文本進行分詞,得到所述每個文本的分詞;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京奇藝世紀科技有限公司,未經北京奇藝世紀科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910335748.X/2.html,轉載請聲明來源鉆瓜專利網。





