[發(fā)明專(zhuān)利]改進(jìn)遷移學(xué)習(xí)模型進(jìn)行工業(yè)互聯(lián)網(wǎng)發(fā)現(xiàn)并提取信息的裝置在審
| 申請(qǐng)?zhí)枺?/td> | 202011256306.5 | 申請(qǐng)日: | 2020-11-12 |
| 公開(kāi)(公告)號(hào): | CN112256840A | 公開(kāi)(公告)日: | 2021-01-22 |
| 發(fā)明(設(shè)計(jì))人: | 林飛;汪致倫;王丹;易永波;古元 | 申請(qǐng)(專(zhuān)利權(quán))人: | 北京亞鴻世紀(jì)科技發(fā)展有限公司 |
| 主分類(lèi)號(hào): | G06F16/33 | 分類(lèi)號(hào): | G06F16/33;G06F16/35;G06F16/36;G06F16/951;G06F16/958;G06F40/211;G06F40/289;G06F40/30;G06N20/00 |
| 代理公司: | 暫無(wú)信息 | 代理人: | 暫無(wú)信息 |
| 地址: | 100095 北京市海淀區(qū)高里*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 改進(jìn) 遷移 學(xué)習(xí) 模型 進(jìn)行 工業(yè) 互聯(lián)網(wǎng) 發(fā)現(xiàn) 提取 信息 裝置 | ||
1.改進(jìn)遷移學(xué)習(xí)模型進(jìn)行工業(yè)互聯(lián)網(wǎng)發(fā)現(xiàn)并提取信息的裝置,其特征在于由網(wǎng)絡(luò)爬蟲(chóng)、文本清洗模塊、內(nèi)容分類(lèi)執(zhí)行模塊、改進(jìn)的遷移學(xué)習(xí)模型和實(shí)體識(shí)別模塊組成;
網(wǎng)絡(luò)爬蟲(chóng)負(fù)責(zé)爬取網(wǎng)頁(yè)內(nèi)容并將網(wǎng)頁(yè)內(nèi)容和網(wǎng)頁(yè)地址發(fā)送給文本清洗模塊;
文本清洗模塊負(fù)責(zé)將網(wǎng)頁(yè)內(nèi)容和網(wǎng)頁(yè)地址所形成的文本中的噪聲字符去除生成干凈的網(wǎng)頁(yè)信息,文本清洗模塊將干凈的網(wǎng)頁(yè)信息發(fā)送給內(nèi)容分類(lèi)執(zhí)行模塊;噪聲字符包括:html標(biāo)簽、停用詞、轉(zhuǎn)發(fā)符、url、標(biāo)記信息;
內(nèi)容分類(lèi)執(zhí)行模塊包含了工業(yè)互聯(lián)網(wǎng)分類(lèi)模型,工業(yè)互聯(lián)網(wǎng)分類(lèi)模型由已分類(lèi)互聯(lián)網(wǎng)樣本數(shù)據(jù)經(jīng)過(guò)改進(jìn)的遷移學(xué)習(xí)模型進(jìn)行語(yǔ)言訓(xùn)練得到;工業(yè)互聯(lián)網(wǎng)分類(lèi)模型是由已分類(lèi)互聯(lián)網(wǎng)樣本數(shù)據(jù)的分類(lèi)標(biāo)簽和已分類(lèi)互聯(lián)網(wǎng)樣本數(shù)據(jù)的內(nèi)容屬于每種分類(lèi)標(biāo)簽的概率組成;
改進(jìn)的遷移學(xué)習(xí)模型的算法表示為:1)使用StructBERT對(duì)文本中的每句話的每個(gè)字進(jìn)行表示,然后使用雙向Transformer學(xué)習(xí)被表示后的文本,Transformer是StructBERT中的標(biāo)準(zhǔn)程序,傳統(tǒng)Transformer的每一層參數(shù)獨(dú)立,當(dāng)層數(shù)增加時(shí),參數(shù)量也會(huì)明顯上升,本模型將所有層的參數(shù)進(jìn)行共享,學(xué)習(xí)一層的參數(shù)量;2)改進(jìn)StructBERT的詞表示為由詞向量、段向量和位置向量共同表示;詞向量的第一個(gè)單詞用于之后的分類(lèi)任務(wù),段向量用來(lái)區(qū)別兩種句子,位置向量用于表示詞位置信息;3)通過(guò)四個(gè)訓(xùn)練任務(wù)來(lái)學(xué)習(xí)語(yǔ)義特征:i)遮掩語(yǔ)言模型,ii)預(yù)測(cè)下一句任務(wù),iii)詞序任務(wù),iv)句子結(jié)構(gòu)任務(wù);遮掩語(yǔ)言模型任務(wù)是指模型在訓(xùn)練過(guò)程中預(yù)測(cè)隨機(jī)遮掩15%的字,而在隨機(jī)遮掩15%的字中80%的字替換成mask符號(hào),10%的字不替換,10%的字替換成其他字;模型通過(guò)此任務(wù)學(xué)習(xí)文本的語(yǔ)義信息;預(yù)測(cè)下一句任務(wù)為了使模型學(xué)習(xí)到句子之間的關(guān)系,假設(shè)訓(xùn)練的輸入是句子S1和S2,S2有一半的幾率是S1的下一句,輸入這兩個(gè)句子,模型預(yù)測(cè)S2是否為S1的下一句;詞序任務(wù)是從未被遮掩的序列中以5%的幾率選擇部分長(zhǎng)度為3子序列,將子序列中的詞序打亂,讓模型重建原來(lái)的詞序,從而使模型學(xué)習(xí)到句子中的詞序關(guān)系;句子結(jié)構(gòu)任務(wù),給定句子對(duì)(S1,S2),判斷S2跟S1的上下關(guān)系和無(wú)關(guān)性;在采樣時(shí),對(duì)于一個(gè)句子S,1/3的概率采樣S的下一句組成句對(duì),1/3的概率采樣S的上一句組成句對(duì),1/3的概率隨機(jī)采樣一個(gè)其他文檔的句子組成句對(duì);
內(nèi)容分類(lèi)執(zhí)行模塊對(duì)照干凈的網(wǎng)頁(yè)信息和工業(yè)互聯(lián)網(wǎng)分類(lèi)模型,內(nèi)容分類(lèi)執(zhí)行模塊丟棄非工業(yè)互聯(lián)網(wǎng)分類(lèi)的干凈的網(wǎng)頁(yè)信息并將屬于工業(yè)互聯(lián)網(wǎng)分類(lèi)的干凈的網(wǎng)頁(yè)信息發(fā)送給實(shí)體識(shí)別模塊;
實(shí)體識(shí)別模塊包含了實(shí)體類(lèi)別模型,實(shí)體類(lèi)別模型由帶實(shí)體類(lèi)別標(biāo)簽的已分類(lèi)工業(yè)互聯(lián)網(wǎng)樣本數(shù)據(jù)經(jīng)過(guò)改進(jìn)的遷移學(xué)習(xí)模型進(jìn)行語(yǔ)言訓(xùn)練得到,實(shí)體類(lèi)別模型是帶實(shí)體類(lèi)別標(biāo)簽的已分類(lèi)工業(yè)互聯(lián)網(wǎng)樣本數(shù)據(jù)的分類(lèi)標(biāo)簽和帶實(shí)體類(lèi)別標(biāo)簽的已分類(lèi)工業(yè)互聯(lián)網(wǎng)樣本數(shù)據(jù)的內(nèi)容屬于每種分類(lèi)標(biāo)簽的概率組成;
實(shí)體識(shí)別模塊對(duì)照干凈的網(wǎng)頁(yè)信息和實(shí)體類(lèi)別模型,輸出干凈的網(wǎng)頁(yè)信息中的內(nèi)容及干凈的網(wǎng)頁(yè)信息中的內(nèi)容對(duì)應(yīng)的實(shí)體類(lèi)別標(biāo)簽,生成更新的帶實(shí)體類(lèi)別標(biāo)簽的已分類(lèi)工業(yè)互聯(lián)網(wǎng)數(shù)據(jù);
實(shí)體識(shí)別模塊將更新的帶實(shí)體類(lèi)別標(biāo)簽的已分類(lèi)工業(yè)互聯(lián)網(wǎng)數(shù)據(jù)合并入帶實(shí)體類(lèi)別標(biāo)簽的已分類(lèi)工業(yè)互聯(lián)網(wǎng)樣本數(shù)據(jù)。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于北京亞鴻世紀(jì)科技發(fā)展有限公司,未經(jīng)北京亞鴻世紀(jì)科技發(fā)展有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011256306.5/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 遷移方法和裝置
- 移動(dòng)邊緣系統(tǒng)中遷移應(yīng)用方法、相關(guān)設(shè)備及系統(tǒng)
- 虛擬機(jī)的遷移方法及裝置
- 數(shù)據(jù)遷移方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 計(jì)算任務(wù)遷移方法及計(jì)算任務(wù)遷移器
- 文件遷移方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 基于遷移工具的國(guó)產(chǎn)化應(yīng)用系統(tǒng)遷移方法
- 數(shù)據(jù)遷移方法及裝置
- 文件遷移方法及裝置
- 一種數(shù)據(jù)遷移方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)
- 根據(jù)用戶學(xué)習(xí)效果動(dòng)態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動(dòng)學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 游戲?qū)W習(xí)效果評(píng)測(cè)方法及系統(tǒng)





