[發(fā)明專利]配方文件識別方法及裝置、電子設(shè)備、存儲介質(zhì)有效
| 申請?zhí)枺?/td> | 201811369327.0 | 申請日: | 2018-11-16 |
| 公開(公告)號: | CN111199170B | 公開(公告)日: | 2022-04-01 |
| 發(fā)明(設(shè)計)人: | 陳予郎 | 申請(專利權(quán))人: | 長鑫存儲技術(shù)有限公司 |
| 主分類號: | G06V30/418 | 分類號: | G06V30/418;G06V30/41;G06V30/10;G06N3/08 |
| 代理公司: | 北京律智知識產(chǎn)權(quán)代理有限公司 11438 | 代理人: | 袁禮君;闞梓瑄 |
| 地址: | 230000 安徽省合肥市*** | 國省代碼: | 安徽;34 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 配方 文件 識別 方法 裝置 電子設(shè)備 存儲 介質(zhì) | ||
本公開提供了一種配方文件識別方法及裝置、電子設(shè)備、計算機可讀存儲介質(zhì),屬于人工智能技術(shù)領(lǐng)域。該方法包括:獲取待識別文件;從所述待識別文件中提取出配方關(guān)鍵詞,所述配方關(guān)鍵詞為所述待識別文件中與數(shù)值成組出現(xiàn)的詞;根據(jù)所述待識別文件的配方關(guān)鍵詞得到所述待識別文件的特征張量;利用配方文件識別模型對所述特征張量進行處理,得到所述待識別文件是否為配方文件的識別結(jié)果。本公開可以較為充分的提取出文件中的特征信息,提高識別文件是否為配方文件的結(jié)果的準(zhǔn)確度,并減少需要處理的關(guān)鍵詞數(shù)量,提高識別效率。
技術(shù)領(lǐng)域
本公開涉及人工智能技術(shù)領(lǐng)域,特別涉及一種配方文件識別方法、配方文件識別裝置、電子設(shè)備及計算機可讀存儲介質(zhì)。
背景技術(shù)
在很多企業(yè)中,配方(Recipe)文件都具有很高的機密性,例如半導(dǎo)體晶圓廠的工藝配方文件、制藥公司的合成配方文件、食品廠的食材配方文件等,一旦發(fā)生外泄,將造成企業(yè)的重大損失。為了防止該情況的發(fā)生,需要將配方文件從種類繁多的企業(yè)內(nèi)部文件中識別出來,以進行嚴格的區(qū)分性管理。
現(xiàn)有的配方文件識別方法較多的依賴于關(guān)鍵詞匹配,基于事先配置的關(guān)鍵詞庫,對文件的文件名或內(nèi)容關(guān)鍵詞進行查找匹配,根據(jù)匹配的結(jié)果判斷文件是否為配方文件。然而,配方文件的關(guān)鍵詞與企業(yè)內(nèi)部其他文件的關(guān)鍵詞之間難免有一定的重合,通過上述方法難以精準(zhǔn)的區(qū)分出兩類文件,導(dǎo)致配方文件識別的準(zhǔn)確率較低、誤判率較高,且對于人為惡意篡改、隱藏文件名或文件內(nèi)容的情況,上述方法也無法有效地識別出,從而給企業(yè)的信息安全管理帶來風(fēng)險。
需要說明的是,在上述背景技術(shù)部分公開的信息僅用于加強對本公開的背景的理解,因此可以包括不構(gòu)成對本領(lǐng)域普通技術(shù)人員已知的現(xiàn)有技術(shù)的信息。
發(fā)明內(nèi)容
本公開提供了一種配方文件識別方法、配方文件識別裝置、電子設(shè)備及計算機可讀存儲介質(zhì),進而至少在一定程度上克服現(xiàn)有的配方文件識別方法準(zhǔn)確率較低且識別范圍較小的問題。
本公開的其他特性和優(yōu)點將通過下面的詳細描述變得顯然,或部分地通過本公開的實踐而習(xí)得。
根據(jù)本公開的一個方面,提供一種配方文件識別方法,包括:獲取待識別文件;從所述待識別文件中提取出配方關(guān)鍵詞,所述配方關(guān)鍵詞為所述待識別文件中與數(shù)值成組出現(xiàn)的詞;根據(jù)所述待識別文件的配方關(guān)鍵詞得到所述待識別文件的特征張量;利用配方文件識別模型對所述特征張量進行處理,得到所述待識別文件是否為配方文件的識別結(jié)果。
在本公開的一種示例性實施例中,所述方法還包括:獲取多個樣本文件與所述樣本文件的文件類型,所述文件類型包括配方文件與非配方文件;根據(jù)所述樣本文件的配方關(guān)鍵詞得到所述樣本文件的樣本特征張量;利用所述樣本特征張量與所述文件類型訓(xùn)練機器學(xué)習(xí)模型,得到所述配方文件識別模型。
在本公開的一種示例性實施例中,在獲取多個樣本文件后,所述方法還包括:對所述樣本文件的文本進行分詞,根據(jù)分詞的結(jié)果構(gòu)建樣本詞庫;將所述樣本文件的文本中的詞組添加到所述樣本詞庫中,得到完整的所述樣本詞庫;所述從所述待識別文件中提取出配方關(guān)鍵詞包括:從所述待識別文件中提取出與數(shù)值相鄰的詞或詞組,將所述詞或詞組與所述樣本詞庫進行匹配,并將匹配成功的詞或詞組確定為所述待識別文件的配方關(guān)鍵詞。
在本公開的一種示例性實施例中,在得到完整的所述樣本詞庫后,所述方法還包括:通過所述樣本詞庫提取所述樣本文件的配方關(guān)鍵詞,得到配方詞庫;對所述配方詞庫中的配方關(guān)鍵詞進行獨熱(one-hot)編碼,得到所述配方關(guān)鍵詞的獨熱向量;所述根據(jù)所述待識別文件的配方關(guān)鍵詞得到所述待識別文件的特征張量包括:根據(jù)所述待識別文件的配方關(guān)鍵詞的獨熱向量,得到所述待識別文件的特征張量。
在本公開的一種示例性實施例中,所述根據(jù)所述待識別文件的配方關(guān)鍵詞的獨熱向量,得到所述待識別文件的特征張量包括:將所述待識別文件的全部配方關(guān)鍵詞的獨熱向量相加,得到所述待識別文件的特征張量。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于長鑫存儲技術(shù)有限公司,未經(jīng)長鑫存儲技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811369327.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種用于集成電路生產(chǎn)線配方管理系統(tǒng)的文件壓縮方法
- 一種面向集成電路生產(chǎn)線的多設(shè)備配方管理方法
- 半導(dǎo)體設(shè)備中工藝配方的管理方法、管理裝置
- 集產(chǎn)品批次運行、監(jiān)控、維護于一體的配方功能模塊
- 工藝配方正確性驗證方法及系統(tǒng)、存儲介質(zhì)和電子設(shè)備
- 一種維持卷煙煙絲質(zhì)量穩(wěn)定的配方替換方法
- 飲品配方適配方法、服務(wù)器和適配系統(tǒng)
- 一種用于治療經(jīng)絡(luò)痿弱的通排導(dǎo)引術(shù)方法
- 一種用于治療由薄型子宮內(nèi)膜及腎陽虛證導(dǎo)致的月經(jīng)過少的中藥組合物及其應(yīng)用
- 一種配方仿真方法和系統(tǒng)





