[發明專利]一種基于自信息損失補償的機器生成文本檢測方法有效
| 申請號: | 202011631513.4 | 申請日: | 2020-12-31 |
| 公開(公告)號: | CN112580351B | 公開(公告)日: | 2022-04-19 |
| 發明(設計)人: | 馮翱;王維寬;宋馨宇;張學磊;張舉;蔡佳志 | 申請(專利權)人: | 成都信息工程大學 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/284;G06F40/30;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 成都智涌知識產權代理事務所(普通合伙) 51313 | 代理人: | 張洪 |
| 地址: | 610200 四川省成都*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 信息 損失 補償 機器 生成 文本 檢測 方法 | ||
1.一種基于自信息損失補償的機器生成文本檢測方法,其特征在于,所述方法包括:
步驟1:確定細分領域,基于確定的細分領域從網絡上爬取文本數據構成數據集;
步驟2:對采集到的數據集進行清洗,具體的,剔除掉HTML標簽和emoji表情干擾字符,數據清洗后的樣本為正樣本,根據正樣本采用數據模擬策略生成的機器生成文本為負樣本;
步驟3:對處理后的數據集進行分詞,獲得文本詞序列;
步驟4:填充文本,設定填充padding大小,將所述文本詞序列處理成列固定長度為padding的序列;
步驟5:設定batch大小,將步驟4處理后的所述文本詞序列劃分為多個batch大小的批數據;
步驟6:使用詞嵌入工具獲得每一批文本詞序列的初始詞向量表示矩陣{w1,w2,w3……wn},基于所述初始詞向量表示矩陣對訓練集中的文本數據進行訓練;
步驟7:編碼文本雙向信息,將步驟6構造的所述初始詞向量矩陣{w1,w2,w3……wn}輸入基于RNN的雙向時序模型中,獲取各個時間步的雙向輸出向量,所述雙向輸出向量包括后向輸出向量和前向輸出向量
步驟8:拼接雙向輸出向量,基于所述雙向輸出向量構造特征矩陣表示拼接,拼接是指前一個向量的尾部和后一個向量的首部直接連到一起,數學表達式如下:
步驟9:編碼邏輯特征并捕獲最大特征,設置不同大小的卷積核,對所述特征矩陣做卷積,并將卷積結果經過激活后再進行最大池化,最后將每一次最大池化所得的結果拼接在一起,數學表達式如下:
ci是拼接結果的第i個元素,max pooling表示求結果中的最大值,f表示激活函數,Wc表示設定大小的卷積核,⊙表示卷積操作;
步驟10:自信息損失補償,具體的,對步驟8的所述特征矩陣做平均池化,再求平均,然后將結果按位加到步驟9的結果上,數學表達式如下:
步驟11:對步驟10的結果進行全連接操作,最后得到一個具有兩個特征的二維矩陣;
步驟12:對所述二維矩陣計算交叉熵,并求當前批數據所得交叉熵的平均值,計算公式如下:
其中,n為batch大小,yi為第i條數據的真實標簽,pi為模型計算出的第i條數據的標簽,L(θ)為:交叉熵的平均值;
步驟13:將步驟12的結果作為誤差進行反向傳播,用于檢測模型的參數訓練;
步驟14:設定結束條件,重復步驟7~13,直到滿足結束條件,所述檢測模型停止訓練。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于成都信息工程大學,未經成都信息工程大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011631513.4/1.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





