[發(fā)明專利]一種文本審核方法、裝置、計算機設(shè)備及可讀存儲介質(zhì)有效
| 申請?zhí)枺?/td> | 202010116229.7 | 申請日: | 2020-02-25 |
| 公開(公告)號: | CN111274782B | 公開(公告)日: | 2023-10-20 |
| 發(fā)明(設(shè)計)人: | 張晶瑩;羅先賢 | 申請(專利權(quán))人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06F40/186 | 分類號: | G06F40/186;G06F40/226;G06F40/258;G06F16/35 |
| 代理公司: | 北京英特普羅知識產(chǎn)權(quán)代理有限公司 11015 | 代理人: | 程超 |
| 地址: | 518000 廣東省深圳市福田區(qū)福*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 文本 審核 方法 裝置 計算機 設(shè)備 可讀 存儲 介質(zhì) | ||
本發(fā)明公開了一種文本審核方法體,該方法體包括:接收用戶終端發(fā)送來的待審核文本,并將所述待審核文本與多個文本類型的文本模板進行文本結(jié)構(gòu)的匹配,以確定出所述待審核文本的文本類型;從預(yù)設(shè)的分類模型庫中獲取與所述文本類型對應(yīng)的分類模型,利用所述分類模型將所述待審核文本拆分為多個審核片段,并為每個審核片段添加對應(yīng)的主題標(biāo)簽;根據(jù)每個審核片段的主題標(biāo)簽,從與所述文本類型對應(yīng)的規(guī)則庫中分別獲取與各個主題標(biāo)簽對應(yīng)的審核規(guī)則;根據(jù)所述審核規(guī)則,判斷在對應(yīng)的審核片段中是否存在風(fēng)險要素內(nèi)容,若是,則將所述風(fēng)險要素內(nèi)容發(fā)送至所述用戶終端,以進行風(fēng)險提示;本發(fā)明可以提高審核文本的精準(zhǔn)度和速度。
技術(shù)領(lǐng)域
本發(fā)明涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,具體涉及一種文本審核方法、裝置、計算機設(shè)備及可讀存儲介質(zhì)。
背景技術(shù)
隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,越來越多的信息通過互聯(lián)網(wǎng)進行傳播;其中,信息傳播的一個重要載體就是文本;由于在文本中會包含敏感或不良信息,為了防止敏感信息泄露以及防止不良信息的傳播,需要審核人員人工的對文本進行風(fēng)險內(nèi)容審核;但是,由于每份文本的文字?jǐn)?shù)量大、內(nèi)容繁雜、表述多樣,需要耗費較多的人力成本,不僅審核效率較低,而且審核準(zhǔn)確率也得不到保障。因此,如何提高審核文本的效率和準(zhǔn)確率成為目前亟待解決的技術(shù)問題。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種文本審核方法、裝置、計算機設(shè)備及可讀存儲介質(zhì),可以提高審核文本的精準(zhǔn)度和速度。
根據(jù)本發(fā)明的一個方面,提供了一種文本審核方法,具體包括以下步驟:
接收用戶終端發(fā)送來的待審核文本,并將所述待審核文本與多個文本類型的文本模板進行文本結(jié)構(gòu)的匹配,以確定出所述待審核文本的文本類型;
從預(yù)設(shè)的分類模型庫中獲取與所述文本類型對應(yīng)的分類模型,利用所述分類模型將所述待審核文本拆分為多個審核片段,并為每個審核片段添加對應(yīng)的主題標(biāo)簽;
根據(jù)每個審核片段的主題標(biāo)簽,從與所述文本類型對應(yīng)的規(guī)則庫中分別獲取與各個主題標(biāo)簽對應(yīng)的審核規(guī)則;
根據(jù)所述審核規(guī)則,判斷在對應(yīng)的審核片段中是否存在風(fēng)險要素內(nèi)容,若是,則將所述風(fēng)險要素內(nèi)容發(fā)送至所述用戶終端,以進行風(fēng)險提示。
可選的,在所述從預(yù)設(shè)的分類模型庫中獲取與所述文本類型對應(yīng)的分類模型,利用所述分類模型將所述待審核文本拆分為多個審核片段,并為每個審核片段添加對應(yīng)的主題標(biāo)簽之前,所述方法還包括:
針對一種文本類型,獲取與所述文本類型對應(yīng)的訓(xùn)練樣本集;其中,所述訓(xùn)練樣本集包括:設(shè)定數(shù)量的歷史文本、每個歷史文本的片段信息以及每個片段的主題標(biāo)簽;
根據(jù)所述訓(xùn)練樣本集中的各個歷史文本所包含的主題標(biāo)簽,將包含在所有歷史文本中的主題標(biāo)簽確定為所述文本類型的必要主題標(biāo)簽;
根據(jù)所述訓(xùn)練樣本集對預(yù)設(shè)模型進行訓(xùn)練學(xué)習(xí),以得到與所述文本類型對應(yīng)的分類模型。
可選的,所述根據(jù)所述訓(xùn)練樣本集對預(yù)設(shè)模型進行訓(xùn)練學(xué)習(xí),以得到與所述文本類型對應(yīng)的分類模型,具體包括:
針對所述訓(xùn)練樣本集中的一個主題標(biāo)簽,獲取各個歷史文本中的與所述主題標(biāo)簽對應(yīng)的片段;對獲取到的每個片段進行分詞處理,并提取出每個片段的名詞;從所有片段的名詞中確定出用于代表所述主題標(biāo)簽的設(shè)定數(shù)量的顯著名詞,并計算出每個顯著名詞的顯著系數(shù),以形成與所述主題標(biāo)簽對應(yīng)的顯著詞集合;
匯聚所述訓(xùn)練樣本集中的各個主題標(biāo)簽的顯著詞集合,作為與所述文本類型對應(yīng)的分類模型。
可選的,所述利用所述分類模型將所述待審核文本拆分為多個審核片段,并為每個審核片段添加對應(yīng)的主題標(biāo)簽,具體包括:
確定出包含在所述待審核文本中的各個標(biāo)題,并根據(jù)確定出的各個標(biāo)題將所述待審核文本拆分為多個審核片段;其中,每個審核片段包括:標(biāo)題部分和正文部分;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于平安科技(深圳)有限公司,未經(jīng)平安科技(深圳)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010116229.7/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





