[發明專利]安全類別標簽檢測方法、裝置、計算機設備及存儲介質在審
| 申請號: | 202110762951.2 | 申請日: | 2021-07-06 |
| 公開(公告)號: | CN113449109A | 公開(公告)日: | 2021-09-28 |
| 發明(設計)人: | 吳智東 | 申請(專利權)人: | 廣州華多網絡科技有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/289;G06F40/30;G06F40/216 |
| 代理公司: | 廣州利能知識產權代理事務所(普通合伙) 44673 | 代理人: | 王增鑫 |
| 地址: | 511442 廣東省廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 安全 類別 標簽 檢測 方法 裝置 計算機 設備 存儲 介質 | ||
1.一種安全類別標簽檢測方法,其特征在于,包括如下步驟:
獲取待檢測安全類別標簽的文本信息;
調用序列標注模型為所述文本信息標注文本信息中的關鍵詞及關鍵詞所屬的安全類別標簽,根據各安全類別標簽所標注的關鍵詞計算該文本信息分別屬于各安全類別標簽的分詞評估分值,所述序列標注模型被預先訓練至收斂狀態;
調用文本分類模型為所述文本信息進行分類評估,獲得該文本信息分別命中所述各個安全類別標簽的全文評估分值,所述文本分類模型被預先訓練至收斂狀態;
將各個安全類別標簽相對應的分詞評估分值與全文評估分值進行線性融合,獲得所述文本信息分別屬于各個安全類別標簽的綜合評估分值,確定綜合評估分值最大者為所述文本信息的安全類別標簽。
2.根據權利要求1所述的方法,其特征在于,
獲取待檢測安全類別標簽的文本信息的步驟,包括:響應文本信息提交事件,提取其中的文本信息,該文本信息包含待發布廣告的內容文本、待發布公告的內容文本或待發表文章的內容文本;
而在確定綜合評估分值最大者為所述文本信息的安全類別標簽之后,包括如下步驟:判斷所述安全類別標簽的安全屬性,當其為非安全屬性時,禁止發布該文本信息;當其為安全屬性時,允許發布該文本信息。
3.根據權利要求1所述的方法,其特征在于,調用序列標注模型為所述文本信息標注文本信息中的關鍵詞及關鍵詞所屬的安全類別標簽,根據各安全類別標簽所標注的關鍵詞計算該文本信息分別屬于各安全類別標簽的分詞評估分值,包括如下具體步驟:
將所述文本信息導入序列標注模型中進行基于語義特征的關鍵詞提取,獲得表征為語義向量的關鍵詞序列;
所述序列標注模型基于所述語義向量對關鍵詞序列進行標簽預測,獲得描述各個關鍵詞相對應的安全類別標簽的標簽序列;
所述序列標注模型根據所述標簽序列中屬于非安全屬性的安全類別標簽所對應的關鍵詞計算該文本信息分別屬于各安全類別標簽的分詞評估分值。
4.根據權利要求3所述的方法,其特征在于,根據所述標簽序列中屬于非安全屬性的安全類別標簽所對應的關鍵詞計算該文本信息分別屬于各安全類別標簽的分詞評估分值的步驟中,每個安全類別標簽相對應的分詞評估分值的計算步驟如下:
確定該安全類別標簽所標注的所有關鍵詞各自的字數之和值;
確定所述文本信息的總字數;
以所述和值與所述總字數的比值作為該安全類別標簽相對應的分詞評估分值。
5.根據權利要求1所述的方法,其特征在于,調用文本分類模型為所述文本信息進行分類評估,獲得該文本信息分別命中所述各個安全類別標簽的全文評估分值,包括如下具體步驟:
將所述文本信息導入文本分類模型中進行基于語義特征提取,獲得文本表征的語義向量;
所述文本分類模型以回歸分類器對所述語義向量進行分類,獲得整個語義向量命中所述各個安全類別標簽的概率,作為各個安全類別標簽相應的所述全文評估分值。
6.根據權利要求1所述的方法,其特征在于,將各個安全類別標簽相對應的分詞評估分值與全文評估分值進行線性融合的步驟中,所述分詞評估分值與全文評估分值分別攜帶各自的權重,兩個權重以同一預設的超參數體現彼此的相關性,以實現彼此的線性加權,以獲得所述文本信息分別屬于各個安全類別標簽的綜合評估分值。
7.根據權利要求1至6中任意一項所述的方法,其特征在于,所述序列標注模型與所述文本分類模型基于同一文本預訓練模型構造其語義特征提取器,用于實現所述基于語義特征的提取。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州華多網絡科技有限公司,未經廣州華多網絡科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110762951.2/1.html,轉載請聲明來源鉆瓜專利網。





