[發(fā)明專利]敏感內(nèi)容識別模型的訓(xùn)練方法、文本識別方法及相關(guān)裝置有效
| 申請?zhí)枺?/td> | 202110691212.9 | 申請日: | 2021-06-22 |
| 公開(公告)號: | CN113254649B | 公開(公告)日: | 2023-07-18 |
| 發(fā)明(設(shè)計)人: | 成杰峰;彭奕 | 申請(專利權(quán))人: | 中國平安人壽保險股份有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/36;G06F40/126;G06F40/279;G06F40/30;G06N3/0464;G06N3/0499;G06N3/08 |
| 代理公司: | 北京英特普羅知識產(chǎn)權(quán)代理有限公司 11015 | 代理人: | 王勇 |
| 地址: | 518033 廣東省深圳市福田區(qū)益田路5033號*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 敏感 內(nèi)容 識別 模型 訓(xùn)練 方法 文本 相關(guān) 裝置 | ||
本發(fā)明提供了一種敏感內(nèi)容識別模型的訓(xùn)練方法,包括:獲取多個用戶文本以及多個用戶賬號;基于所述多個用戶賬號以及各個用戶賬號之間的關(guān)聯(lián)關(guān)系,構(gòu)建知識圖譜,所述知識圖譜包括多個節(jié)點;根據(jù)所述多個節(jié)點獲取多個賬號特征向量;提取所述多個用戶文本的多個文本特征向量;將每個用戶賬號特征向量和對應(yīng)的一個或多個文本特征向量拼接,以得到多個融合特征向量;及將所述多個融合特征向量作為多組訓(xùn)練樣本,將每組訓(xùn)練樣本分別輸入待訓(xùn)練的分類模型中,對所述待訓(xùn)練的分類模型進行訓(xùn)練,以得到所述敏感內(nèi)容識別模型。本發(fā)明將用戶文本和用戶賬號進行特征融合,通過融合后的特征訓(xùn)練和使用敏感內(nèi)容的識別,提高了識別準(zhǔn)確率和訓(xùn)練效率。
技術(shù)領(lǐng)域
本發(fā)明涉及人工智能領(lǐng)域,尤其涉及敏感內(nèi)容識別模型的訓(xùn)練方法、文本識別方法及相關(guān)裝置。
背景技術(shù)
現(xiàn)有的敏感內(nèi)容識別模型通常采用有監(jiān)督的機器學(xué)習(xí)方案,比如基于CNN模型的文本分類器;而文本分類器對敏感內(nèi)容的識別能力取決于標(biāo)注樣本的信息量;只是依賴于內(nèi)容本身的信息量并不足以訓(xùn)練出好的文本分類器,導(dǎo)致現(xiàn)有的文本分類器并不能正確識別沒有在標(biāo)注樣本中出現(xiàn)的敏感信息文本類別。
現(xiàn)有的訓(xùn)練模型如ELMO(EmbeddingsLanguageModels,嵌入語言模型)尺寸巨大,巨大的模型尺寸使得應(yīng)用預(yù)訓(xùn)練模型進行文本處理的方法需要大量的時間,難以應(yīng)用于實際場景,因此,找到一種準(zhǔn)確高效且便于應(yīng)用的文本訓(xùn)練方法十分重要。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種敏感內(nèi)容識別模型的訓(xùn)練方法、文本識別方法、計算機設(shè)備及計算機可讀存儲介質(zhì),用于解決以下問題:現(xiàn)有技術(shù)不能正確識別沒有在標(biāo)注樣本中出現(xiàn)的敏感信息文本類別。
本發(fā)明實施例的第一方面提供了敏感內(nèi)容識別模型的訓(xùn)練方法,包括:
獲取多個用戶文本以及多個用戶賬號;每個用戶文本為敏感內(nèi)容文本或非敏感內(nèi)容文本,每個所述用戶文本分別關(guān)聯(lián)一個所述用戶賬號;基于所述多個用戶賬號以及各個用戶賬號之間的關(guān)聯(lián)關(guān)系,構(gòu)建知識圖譜;所述知識圖譜包括多個節(jié)點,每個節(jié)點對應(yīng)于所述多個用戶賬號中的一個用戶賬號;根據(jù)所述多個節(jié)點獲取多個賬號特征向量,每個賬號特征向量對應(yīng)于所述多個節(jié)點中的一個節(jié)點;提取所述多個用戶文本的多個文本特征向量,每個所述文本特征向量對應(yīng)于一個用戶文本;將每個用戶賬號特征向量和對應(yīng)的一個或多個文本特征向量拼接,以得到多個融合特征向量;及將所述多個融合特征向量作為多組訓(xùn)練樣本,將每組訓(xùn)練樣本分別輸入待訓(xùn)練的分類模型中,以對所述待訓(xùn)練的分類模型進行訓(xùn)練,以得到所述敏感內(nèi)容識別模型。
可選地,所述基于所述多個用戶賬號以及各個用戶賬號之間的關(guān)聯(lián)關(guān)系,構(gòu)建知識圖譜的步驟,包括:獲取所述多個用戶賬號中的各個用戶賬號的賬號信息,以得到多個用戶賬號信息;基于所述多個用戶賬號信息獲取多組關(guān)聯(lián)賬號;其中所述用戶賬號信息包括相應(yīng)用戶賬號的注冊登錄信息,每組關(guān)聯(lián)賬號包括具有相同的至少一個用戶賬號信息的兩個用戶賬號;及根據(jù)多組關(guān)聯(lián)賬號構(gòu)建知識圖譜;每個用戶賬號分別對應(yīng)所述知識圖譜中的一個節(jié)點,每組關(guān)聯(lián)賬號的兩個用戶賬號之間的相同用戶賬號信息用于構(gòu)建相應(yīng)的兩個節(jié)點之間的邊。
可選地,所述根據(jù)所述多個節(jié)點獲取多個賬號特征向量的步驟,包括:將所述知識圖譜上的多組關(guān)聯(lián)賬號相應(yīng)的多個節(jié)點和多條邊嵌入到目標(biāo)函數(shù)中,通過所述目標(biāo)函數(shù)計算出與所述多個節(jié)點對應(yīng)的多個賬號特征向量,其中所述目標(biāo)函數(shù)為:
其中,Eij表示邊的權(quán)值;φ(ui)、φ(uj)分別表示第i個節(jié)點vi,第j個節(jié)點vj;φ'(uj)表示節(jié)點vj的相鄰節(jié)點,ui、uj分別表示節(jié)點vi、節(jié)點vj的賬號特征向量表示。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國平安人壽保險股份有限公司,未經(jīng)中國平安人壽保險股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110691212.9/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 內(nèi)容再現(xiàn)系統(tǒng)、內(nèi)容提供方法、內(nèi)容再現(xiàn)裝置、內(nèi)容提供裝置、內(nèi)容再現(xiàn)程序和內(nèi)容提供程序
- 內(nèi)容記錄系統(tǒng)、內(nèi)容記錄方法、內(nèi)容記錄設(shè)備和內(nèi)容接收設(shè)備
- 內(nèi)容服務(wù)系統(tǒng)、內(nèi)容服務(wù)器、內(nèi)容終端及內(nèi)容服務(wù)方法
- 內(nèi)容分發(fā)系統(tǒng)、內(nèi)容分發(fā)裝置、內(nèi)容再生終端及內(nèi)容分發(fā)方法
- 內(nèi)容發(fā)布、內(nèi)容獲取的方法、內(nèi)容發(fā)布裝置及內(nèi)容傳播系統(tǒng)
- 內(nèi)容提供裝置、內(nèi)容提供方法、內(nèi)容再現(xiàn)裝置、內(nèi)容再現(xiàn)方法
- 內(nèi)容傳輸設(shè)備、內(nèi)容傳輸方法、內(nèi)容再現(xiàn)設(shè)備、內(nèi)容再現(xiàn)方法、程序及內(nèi)容分發(fā)系統(tǒng)
- 內(nèi)容發(fā)送設(shè)備、內(nèi)容發(fā)送方法、內(nèi)容再現(xiàn)設(shè)備、內(nèi)容再現(xiàn)方法、程序及內(nèi)容分發(fā)系統(tǒng)
- 內(nèi)容再現(xiàn)裝置、內(nèi)容再現(xiàn)方法、內(nèi)容再現(xiàn)程序及內(nèi)容提供系統(tǒng)
- 內(nèi)容記錄裝置、內(nèi)容編輯裝置、內(nèi)容再生裝置、內(nèi)容記錄方法、內(nèi)容編輯方法、以及內(nèi)容再生方法





