[發(fā)明專利]語音輔助的視聽協(xié)同學(xué)習(xí)新目標(biāo)網(wǎng)絡(luò)模型的構(gòu)建方法在審
| 申請?zhí)枺?/td> | 201911334785.5 | 申請日: | 2019-12-23 |
| 公開(公告)號: | CN111079849A | 公開(公告)日: | 2020-04-28 |
| 發(fā)明(設(shè)計(jì))人: | 茍先太;康立燁;錢照國;張葛祥 | 申請(專利權(quán))人: | 西南交通大學(xué) |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06K9/46;G06N3/04;G06N3/08 |
| 代理公司: | 成都正華專利代理事務(wù)所(普通合伙) 51229 | 代理人: | 李蕊 |
| 地址: | 610031*** | 國省代碼: | 四川;51 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 語音 輔助 視聽 協(xié)同 學(xué)習(xí) 新目標(biāo) 網(wǎng)絡(luò) 模型 構(gòu)建 方法 | ||
1.一種語音輔助的視聽協(xié)同學(xué)習(xí)新目標(biāo)網(wǎng)絡(luò)模型的構(gòu)建方法,其特征在于,包括以下步驟:
S1:搭建用于原始對象識別的原始對象分類器M1和用于提取對象的特征向量的對象特征提取模型M2;
S2:創(chuàng)建用于保存新對象的特征向量的對象特征向量庫B1和用于保存新對象的圖像數(shù)據(jù)集的新對象圖像庫B2;
S3:輸入新圖像picture,加載原始對象分類器M1對新圖像picture進(jìn)行對象識別;
S4:若新圖像picture中不存在未識別的對象,則停止操作;若存在未識別的對象(object-1、……、object-m)時(shí),則加載對象特征提取模型M2對未識別的對象(object-1、……、object-m)進(jìn)行特征提取,將提取到的特征向量集R中的每一個(gè)特征向量分別與特征向量庫B1中每一個(gè)特征向量進(jìn)行特征匹配;
S5:若匹配時(shí)存在匹配的最高置信度most-value高于置信度基礎(chǔ)值base-value的對象,則判定該對象正確識別,反之則判定該對象為新對象object;
S6:通過語音輔助進(jìn)行人機(jī)交互,對新對象object的顯性特征進(jìn)行語音描述,為新對象object打上語音標(biāo)簽,得到新圖像image;
S7:對新圖像image進(jìn)行圖像增廣,得到增廣后的圖像(image-1、image-2、……、image-n),并保存到新對象圖像庫B2中;
S8:加載對象特征提取模型M2,對新圖像image中的新對象object進(jìn)行特征提取,并將得到的特征向量feature保存到特征向量庫B1中;
S9:遍歷新對象圖像庫B2,判斷是否有新對象的數(shù)據(jù)集量達(dá)到訓(xùn)練要求的數(shù)據(jù)集量N;
S10:若是,則將該新對象的數(shù)據(jù)集N與原始對象分類器M1的數(shù)據(jù)集進(jìn)行合并,并利用合并的數(shù)據(jù)集訓(xùn)練新的對象分類器替換原始對象分類器M1,并刪除新對象圖像庫B2中該新對象特征的圖像數(shù)據(jù)集;
S11:否則,則重復(fù)步驟S3-S9,直到有新對象的數(shù)據(jù)集量達(dá)到訓(xùn)練要求的數(shù)據(jù)集量N。
2.根據(jù)權(quán)利要求1所述的語音輔助的視聽協(xié)同學(xué)習(xí)新目標(biāo)網(wǎng)絡(luò)模型的構(gòu)建方法,其特征在于,所述搭建用于原始對象識別的原始對象分類器M1的方法包括:
A11:根據(jù)實(shí)際應(yīng)用場景,利用圖像數(shù)據(jù)集生成訓(xùn)練圖像集images-input1;
A12:創(chuàng)建殘差卷積神經(jīng)網(wǎng)絡(luò)ResNet來提取訓(xùn)練圖像集images-input1中圖像的圖像特征feature-maps,殘差卷積神經(jīng)網(wǎng)絡(luò)ResNet由卷積層conv1、relu1層和池化層pooling1組成;
A13:創(chuàng)建RPN網(wǎng)絡(luò)生成圖像候選區(qū)域region-proposals,并輸入圖像特征feature-maps,通過Softmax判斷圖像特征feature-maps屬于前景還是后景,并對候選區(qū)域region-proposal進(jìn)行修正,生成準(zhǔn)確的候選區(qū)域proposals1;
A14:利用候選區(qū)域proposals1和圖像特征feature-maps,生成一個(gè)固定大小的特征區(qū)域proposal-feature-maps。
A15:將固定大小的特征區(qū)域proposal-feature-maps進(jìn)行全連接,利用Softmax進(jìn)行對象分類,計(jì)算損失Loss,并修正損失Loss,實(shí)現(xiàn)原始對象的精確分類。
3.根據(jù)權(quán)利要求2所述的語音輔助的視聽協(xié)同學(xué)習(xí)新目標(biāo)網(wǎng)絡(luò)模型的構(gòu)建方法,其特征在于,搭建用于提取對象的特征向量的對象特征提取模型M2的方法包括:
B11:準(zhǔn)備具有若干類型的圖像數(shù)據(jù)Data1作為訓(xùn)練數(shù)據(jù)集images-input2;
B12:加載訓(xùn)練數(shù)據(jù)集images-input2,預(yù)訓(xùn)練自主RPN網(wǎng)絡(luò)模型RPN-model,輸出對象候選區(qū)域proposals2;
B13:預(yù)訓(xùn)練特征提取網(wǎng)絡(luò)模型con-model,加載訓(xùn)練數(shù)據(jù)集images-input2,特征提取網(wǎng)絡(luò)模型con-model由卷積層conv2、relu2層、池化層pooling2和全連接層FC組成;
B14:對對象候選區(qū)域proposals2進(jìn)行修正,然后分別輸入到特征提取網(wǎng)絡(luò)模型con-model中進(jìn)行特征提取,得到每個(gè)候選區(qū)域的圖像特征feature-maps。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于西南交通大學(xué),未經(jīng)西南交通大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911334785.5/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個(gè)筆畫組成的,而且每個(gè)筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 移動(dòng)通信終端的協(xié)同方法及其界面系統(tǒng)
- 業(yè)務(wù)協(xié)同流程配置、業(yè)務(wù)協(xié)同方法及裝置
- 一種基于健康檔案共享平臺的跨醫(yī)院協(xié)同檢查信息系統(tǒng)
- 一種協(xié)同控制方法、協(xié)同控制系統(tǒng)及變頻器
- 基于協(xié)同網(wǎng)關(guān)的跨域協(xié)同交互方法
- 一種生產(chǎn)協(xié)同管理方法及系統(tǒng)
- 云邊協(xié)同方法、裝置、系統(tǒng)、設(shè)備和介質(zhì)
- 一種智能辦公協(xié)同操作方法及系統(tǒng)
- 一種用于無人裝備的時(shí)間協(xié)同航跡規(guī)劃方法
- 基于大數(shù)據(jù)的智慧辦公協(xié)同方法及系統(tǒng)





