[發明專利]文本判別的方法、裝置、電子設備及存儲介質有效
| 申請號: | 202110479518.8 | 申請日: | 2021-04-30 |
| 公開(公告)號: | CN113128220B | 公開(公告)日: | 2023-07-18 |
| 發明(設計)人: | 洪煜中 | 申請(專利權)人: | 北京奇藝世紀科技有限公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F18/2415;G06N3/04;G06N3/084 |
| 代理公司: | 北京華夏泰和知識產權代理有限公司 11662 | 代理人: | 唐會娜;杜欣 |
| 地址: | 100080 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 別的 方法 裝置 電子設備 存儲 介質 | ||
1.一種文本判別方法,其特征在于,包括:?執行以下判別過程:
獲取待識別文本,所述待識別文本中包括至少一個字符;
確定所述待識別文本中目標字符的敏感度,所述目標字符為所述待識別文本中的任一字符;
根據所述目標字符的敏感度和至少一個與所述目標字符相鄰的鄰域字符的敏感度,確定所述目標字符的召回傾向度,所述召回傾向度指示所述目標字符所在的待識別文本被召回的傾向程度;
在所述目標字符的所述召回傾向度大于預設值時,確定所述待識別文本需要召回;
其中,所述確定所述待識別文本中目標字符的敏感度,包括:
獲取預設的敏感詞集;
根據預設敏感詞集對所述待識別文本進行全稱匹配,得到匹配結果;
根據所述匹配結果,對所述目標字符進行賦值,將賦值結果作為所述目標字符的敏感度,其中,匹配成功的目標字符的敏感度大于未匹配成功的目標字符的敏感度;
其中,所述根據所述目標字符的敏感度和至少一個與所述目標字符相鄰的相鄰字符的敏感度,確定所述目標字符的召回傾向度,包括:
根據每個所述目標字符的所述賦值結果,確定所述待識別文本的匹配序列;
對所述匹配序列進行平滑處理,得到平滑序列;
根據所述平滑序列,確定所述目標字符的召回傾向度。
2.根據權利要求1所述的文本判別方法,其特征在于,還包括:
獲取訓練樣本集,所述訓練樣本集中包括至少一個訓練文本、各所述訓練文本中各訓練字符的真實召回傾向度以及所述訓練文本的真實判別結果,所述真實召回傾向度和所述真實判別結果是所述訓練文本通過執行所述判別過程得到;
根據所述訓練樣本集對初始神經網絡進行訓練,得到判別神經網絡;
基于所述判別神經網絡確定所述待識別文本是否需要召回。
3.根據權利要求2所述的文本判別方法,其特征在于,所述根據所述訓練樣本集對初始神經網絡進行訓練,得到判別神經網絡,包括:
分別對所述訓練樣本集中的每個訓練文本執行以下訓練過程:
將所述訓練文本輸入初始神經網絡,對所述訓練文本中的各訓練字符賦予訓練字符向量,將所述訓練字符向量與初始查詢向量點乘,得到所述訓練字符的預測召回傾向度;根據所述預測召回傾向度對所述訓練字符向量加權平均,并將加權平均后的結果依次輸入隱藏層、全連接層和輸出層,得到樣本輸出結果,根據所述樣本輸出結果判斷所述訓練文本是否需要召回,得到預測判別結果;
根據所述訓練文本的所述預測召回傾向度和所述真實召回傾向度,更新所述初始查詢向量的第一參數,以及根據所述預測判別結果和所述真實判別結果,更新所述初始神經網絡的第二參數,重復執行所述訓練過程,直至所述訓練文本召回傾向度的準確度大于第一預設值,以及判別結果的準確度大于第二預設閾值;
將更新后的初始神經網絡作為所述判別神經網絡。
4.根據權利要求3所述的文本判別方法,其特征在于,所述根據所述訓練文本的所述預測召回傾向度和所述真實召回傾向度,更新所述初始查詢向量的第一參數,包括:
根據所述訓練文本的所述預測召回傾向度和所述真實召回傾向度,計算第一交叉熵;
根據所述第一交叉熵,將梯度反向傳播到所述初始查詢向量,優化所述初始查詢向量的第一參數。
5.根據權利要求3所述的文本判別方法,其特征在于,以及根據所述預測判別結果和所述真實判別結果,更新所述初始神經網絡的第二參數,包括:
根據所述訓練文本的所述預測判別結果和所述真實判別結果,計算第二交叉熵;
根據所述第二交叉熵,將梯度反向傳播到所述初始神經網絡,優化所述初始神經網絡每一層的第二參數。
6.根據權利要求1-5任一項所述的文本判別方法,其特征在于,還包括:
獲取所述召回傾向度;
根據所述召回傾向度對各所述字符匹配字符顏色,其中,所述字符顏色與所述召回傾向度相關;
顯示所述待識別文本的字符顏色。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京奇藝世紀科技有限公司,未經北京奇藝世紀科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110479518.8/1.html,轉載請聲明來源鉆瓜專利網。





