[發(fā)明專利]文本的校驗(yàn)方法、裝置、存儲(chǔ)介質(zhì)以及處理器在審
| 申請(qǐng)?zhí)枺?/td> | 201911425456.1 | 申請(qǐng)日: | 2019-12-31 |
| 公開(公告)號(hào): | CN111209724A | 公開(公告)日: | 2020-05-29 |
| 發(fā)明(設(shè)計(jì))人: | 彭翔;贠瑞峰;張炎紅;劉粉香 | 申請(qǐng)(專利權(quán))人: | 智慧神州(北京)科技有限公司 |
| 主分類號(hào): | G06F40/157 | 分類號(hào): | G06F40/157;G06F40/216;G06F40/289;G06N20/00 |
| 代理公司: | 北京康信知識(shí)產(chǎn)權(quán)代理有限責(zé)任公司 11240 | 代理人: | 霍文娟 |
| 地址: | 100085 北京*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 文本 校驗(yàn) 方法 裝置 存儲(chǔ) 介質(zhì) 以及 處理器 | ||
1.一種文本的校驗(yàn)方法,其特征在于,包括:
獲取公開文本的樣本字典編碼;
構(gòu)建模型進(jìn)行訓(xùn)練,其中,所述模型為使用多組數(shù)據(jù)通過機(jī)器學(xué)習(xí)訓(xùn)練得出的,所述多組數(shù)據(jù)中的每組數(shù)據(jù)均包括:不同的樣本字典編碼和所述樣本字典編碼對(duì)應(yīng)的序列標(biāo)注標(biāo)簽和任務(wù)編碼標(biāo)簽;
獲取待檢測(cè)文本的字典編碼;
將所述字典編碼輸入所述模型,得到所述待檢測(cè)文本的序列標(biāo)注標(biāo)簽和任務(wù)編碼標(biāo)簽。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述公開文本為正樣本,獲取公開文本的樣本字典編碼包括:
收集公開文本;
對(duì)所述公開文本進(jìn)行分詞處理,得到分詞結(jié)果;
根據(jù)所述分詞結(jié)果生成樣本字典編碼。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,在對(duì)所述公開文本進(jìn)行分詞處理,得到分詞結(jié)果之后,還包括:
根據(jù)所述分詞結(jié)果,構(gòu)建所述公開文本的字詞數(shù)據(jù)庫,其中,所述字詞數(shù)據(jù)庫包括以下至少之一:編號(hào)、詞頻、拼音;
將所述分詞結(jié)果的多音字拆解成多個(gè)拼音,構(gòu)建所述公開文本的拼音數(shù)據(jù)庫;
確定每個(gè)拼音的近似拼音,構(gòu)建所述公開文本的近似拼音數(shù)據(jù)庫。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,在將所述分詞結(jié)果的多音字拆解成多個(gè)拼音,構(gòu)建所述公開文本的拼音數(shù)據(jù)庫之后,還包括:
構(gòu)建拼音數(shù)據(jù)庫中的拼音與字詞序列的映射關(guān)系。
5.根據(jù)權(quán)利要求4中所述的方法,其特征在于,所述公開文本為負(fù)樣本,獲取公開文本的樣本字典編碼包括:
獲取待替換字詞;
基于所述字詞數(shù)據(jù)庫確定所述待替換字詞的拼音;
基于所述近似拼音數(shù)據(jù)庫確定所述待替換字詞的近似拼音;
基于映射關(guān)系確定所述待替換字詞的拼音對(duì)應(yīng)的同音字詞,以及所述待替換字詞的近似拼音對(duì)應(yīng)的近似字詞;
按照所述同音字詞和所述近似字詞的詞頻對(duì)應(yīng)的概率,得到替換字詞,其中,所述替換字詞用于替換所述待替換字詞,生成負(fù)樣本。
6.一種文本的校驗(yàn)裝置,其特征在于,包括:
第一獲取模塊,用于獲取公開文本的樣本字典編碼;
訓(xùn)練模塊,用于構(gòu)建模型進(jìn)行訓(xùn)練,其中,所述模型為使用多組數(shù)據(jù)通過機(jī)器學(xué)習(xí)訓(xùn)練得出的,所述多組數(shù)據(jù)中的每組數(shù)據(jù)均包括:不同的樣本字典編碼和所述樣本字典編碼對(duì)應(yīng)的序列標(biāo)注標(biāo)簽和任務(wù)編碼標(biāo)簽;
第二獲取模塊,用于獲取待檢測(cè)文本的字典編碼;
得到模塊,用于將所述字典編碼輸入所述模型,得到所述待檢測(cè)文本的序列標(biāo)注標(biāo)簽和任務(wù)編碼標(biāo)簽。
7.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述公開文本為正樣本,第一獲取模塊包括:
收集單元,用于收集公開文本;
分詞單元,用于對(duì)所述公開文本進(jìn)行分詞處理,得到分詞結(jié)果;
生成單元,用于根據(jù)所述分詞結(jié)果生成樣本字典編碼。
8.根據(jù)權(quán)利要求7所述的裝置,其特征在于,在對(duì)所述公開文本進(jìn)行分詞處理,得到分詞結(jié)果之后,還包括:
第一構(gòu)建單元,用于根據(jù)所述分詞結(jié)果,構(gòu)建所述公開文本的字詞數(shù)據(jù)庫,其中,所述字詞數(shù)據(jù)庫包括以下至少之一:編號(hào)、詞頻、拼音;
第二構(gòu)建單元,用于將所述分詞結(jié)果的多音字拆解成多個(gè)拼音,構(gòu)建所述公開文本的拼音數(shù)據(jù)庫;
第三構(gòu)建單元,用于確定每個(gè)拼音的近似拼音,構(gòu)建所述公開文本的近似拼音數(shù)據(jù)庫。
9.一種存儲(chǔ)介質(zhì),其特征在于,所述存儲(chǔ)介質(zhì)包括存儲(chǔ)的程序,其中,在所述程序運(yùn)行時(shí)控制所述存儲(chǔ)介質(zhì)所在設(shè)備執(zhí)行權(quán)利要求1至5中任意一項(xiàng)所述的文本的校驗(yàn)方法。
10.一種處理器,其特征在于,所述處理器用于運(yùn)行程序,其中,所述程序運(yùn)行時(shí)執(zhí)行權(quán)利要求1至5中任意一項(xiàng)所述的文本的校驗(yàn)方法。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于智慧神州(北京)科技有限公司,未經(jīng)智慧神州(北京)科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911425456.1/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識(shí)別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級(jí)連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 文本生成方法、裝置和電子設(shè)備
- 一種網(wǎng)絡(luò)驗(yàn)證信息的方法和裝置
- 數(shù)據(jù)安全校驗(yàn)方法、裝置及校驗(yàn)設(shè)備
- XBRL實(shí)例文檔校驗(yàn)方法以及系統(tǒng)
- 一次性可編程存儲(chǔ)裝置以及對(duì)其進(jìn)行數(shù)據(jù)校驗(yàn)的方法
- 信息校驗(yàn)方法及裝置
- 一種基于Java系統(tǒng)的數(shù)據(jù)校驗(yàn)方法及系統(tǒng)
- 用于獨(dú)立冗余磁盤陣列的數(shù)據(jù)管理方法、設(shè)備和計(jì)算機(jī)程序產(chǎn)品
- 數(shù)據(jù)校驗(yàn)方法及應(yīng)用系統(tǒng)
- 數(shù)據(jù)校驗(yàn)方法、裝置、電子設(shè)備
- 一種業(yè)務(wù)數(shù)據(jù)校驗(yàn)方法及裝置
- 一種數(shù)據(jù)庫讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





