[發明專利]一種識別方法和系統在審
| 申請號: | 202010894361.0 | 申請日: | 2020-08-31 |
| 公開(公告)號: | CN112016316A | 公開(公告)日: | 2020-12-01 |
| 發明(設計)人: | 馬凱 | 申請(專利權)人: | 北京嘀嘀無限科技發展有限公司 |
| 主分類號: | G06F40/284 | 分類號: | G06F40/284;G06K9/62 |
| 代理公司: | 成都七星天知識產權代理有限公司 51253 | 代理人: | 楊永梅 |
| 地址: | 100193 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 識別 方法 系統 | ||
1.一種識別方法,所述方法包括:
獲取待識別數據;
將所述待識別數據輸入識別模型中,其中,所述識別模型由與目標相關的第一訓練數據和與目標無關的第二訓練數據共同訓練自注意力模型后獲得;以及
根據所述待識別數據和所述識別模型,確定所述待識別數據是否與所述目標相關。
2.如權利要求1所述的方法,還包括訓練所述自注意力模型獲取所述識別模型,所述訓練過程包括:
獲取兩套或以上的多套訓練數據,其中,所述多套訓練數據包括至少一套與所述目標相關的第一訓練數據,以及至少一套與所述目標無關的第二訓練數據;以及
基于所述多套訓練數據,通過自注意力機制訓練所述自注意力模型,生成所述識別模型。
3.如權利要求2所述的方法,所述多套訓練數據包括多套語料中每個單詞經預處理生成的詞向量,所述訓練過程包括:
對于每個單詞,
獲取所述單詞的兩種或以上詞向量,所述兩種或以上的詞向量與不同的上下文相關;
拼接所述兩種或以上詞向量以獲取共有詞向量;以及
將所述共有詞向量與每套語料除該單詞外其他單詞的詞向量通過自注意力機制確定該單詞的注意力。
4.如權利要求3所述的方法,拼接所述一種或以上詞向量以獲取共有詞向量包括:
將每個單詞在所述多套訓練數據中的詞向量加權求和。
5.如權利要求2所述的方法,所述多套語料為兩套語料,所述兩套語料包括一套與安全問題相關的語料和一套與安全問題無關的語料。
6.如權利要求3所述的方法,所述預處理過程包括:
使用詞向量生成算法,生成所述單詞的詞向量。
7.如權利要求6所述的方法,所述詞向量生成算法為Word2Vec。
8.如權利要求1所述的方法,進一步包括:
基于識別出所述待識別數據是否與所述目標相關的結果,執行相應的措施。
9.如權利要求8所述的方法,所述目標與安全問題相關,以及
所述措施包括向與目標相關的對象發出繼續溝通、持續監控、警告中的一種或多種組合。
10.一種安全問題識別系統,包括獲取模塊以及識別模塊;
所述獲取模塊用于獲取待識別數據;
所述識別模塊用于將所述待識別數據輸入識別模型中;其中,所述識別模型由與目標相關的第一訓練數據和與目標無關的第二訓練數據共同訓練自注意力模型后獲得;根據所述待識別數據和所述識別模型,確定所述待識別數據是否與所述目標相關。
11.一種識別裝置,包括處理器,所述處理器用于執行如權利要求1~9任一項所述的識別方法。
12.一種計算機可讀存儲介質,所述存儲介質存儲計算機指令,當計算機讀取存儲介質中的計算機指令后,計算機執行如權利要求1~9任一項所述的識別方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京嘀嘀無限科技發展有限公司,未經北京嘀嘀無限科技發展有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010894361.0/1.html,轉載請聲明來源鉆瓜專利網。





