[發(fā)明專利]一種基于深度學(xué)習(xí)的個(gè)人主頁(yè)信息提取方法及裝置在審
| 申請(qǐng)?zhí)枺?/td> | 202210546058.0 | 申請(qǐng)日: | 2022-05-19 |
| 公開(kāi)(公告)號(hào): | CN114969601A | 公開(kāi)(公告)日: | 2022-08-30 |
| 發(fā)明(設(shè)計(jì))人: | 田悅霖;王路路;于凱;劉佳 | 申請(qǐng)(專利權(quán))人: | 北京智譜華章科技有限公司 |
| 主分類號(hào): | G06F16/958 | 分類號(hào): | G06F16/958;G06F40/211;G06F40/289;G06N3/04;G06N3/08 |
| 代理公司: | 北京清亦華知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11201 | 代理人: | 羅嵐 |
| 地址: | 100084 北京市海淀*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 深度 學(xué)習(xí) 個(gè)人主頁(yè) 信息 提取 方法 裝置 | ||
1.一種基于深度學(xué)習(xí)的個(gè)人主頁(yè)信息提取方法,其特征在于,所述方法包括:
獲取個(gè)人主頁(yè)網(wǎng)址對(duì)應(yīng)的網(wǎng)頁(yè),并對(duì)所述網(wǎng)頁(yè)進(jìn)行數(shù)據(jù)清洗得到網(wǎng)頁(yè)文本語(yǔ)料;
將所述網(wǎng)頁(yè)文本語(yǔ)料進(jìn)行分詞,并通過(guò)匹配對(duì)應(yīng)的詞嵌入表得到詞向量序列;
將所述詞向量序列輸入至目標(biāo)模型中,得到對(duì)應(yīng)的句向量;
將所述句向量輸入至目標(biāo)卷積神經(jīng)網(wǎng)絡(luò)中,得到所述句向量對(duì)應(yīng)的分類標(biāo)簽,將所述分類標(biāo)簽與所述句向量對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容輸出。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對(duì)所述網(wǎng)頁(yè)進(jìn)行數(shù)據(jù)清洗得到網(wǎng)頁(yè)文本語(yǔ)料,包括:
獲取所述網(wǎng)頁(yè)對(duì)應(yīng)的超文本標(biāo)記語(yǔ)言HTML文檔;
根據(jù)所述HTML文檔中具有換行功能的標(biāo)簽所處的位置,對(duì)HTML文檔進(jìn)行換行處理;
解析所述HTML文檔,并對(duì)所述HTML文檔進(jìn)行去空行處理,得到網(wǎng)頁(yè)文本語(yǔ)料。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述將所述網(wǎng)頁(yè)文本語(yǔ)料進(jìn)行分詞,并通過(guò)匹配對(duì)應(yīng)的詞嵌入表得到詞向量序列,包括:
將所述網(wǎng)頁(yè)文本語(yǔ)料切分為多個(gè)子句子序列,在每個(gè)子句子序列頭部插入token([CLS])得到對(duì)應(yīng)的每個(gè)句子序列;
所述每個(gè)句子序列通過(guò)匹配詞嵌入表得到每個(gè)句子序列對(duì)應(yīng)的詞嵌入序列;
將所述每個(gè)詞嵌入序列填充為等長(zhǎng)序列,得到對(duì)應(yīng)的詞向量序列。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述將所述詞向量序列輸入至目標(biāo)模型中,得到對(duì)應(yīng)的句向量,包括:將所述詞向量序列輸入至目標(biāo)BERT中,得到對(duì)應(yīng)的句向量。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述將所述句向量輸入至目標(biāo)卷積神經(jīng)網(wǎng)絡(luò)中,得到所述句向量對(duì)應(yīng)的分類標(biāo)簽,包括:通過(guò)目標(biāo)卷積網(wǎng)絡(luò)對(duì)輸入的句向量進(jìn)行一維卷積操作得到所述句向量的分類標(biāo)簽。
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述一維卷積操作,包括:
卷積層的輸入形狀為(N,Cin,L),輸出形狀為(N,Cout,Lout),卷積層的輸出值為:
其中,*表示有效的互相關(guān)操作,N為batch_size,C表示通道的個(gè)數(shù),L為輸入信號(hào)序列的長(zhǎng)度。
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述將所述句向量輸入至目標(biāo)卷積神經(jīng)網(wǎng)絡(luò)中,得到所述句向量對(duì)應(yīng)的分類標(biāo)簽,之前,還包括:
構(gòu)建預(yù)設(shè)卷積神經(jīng)網(wǎng)絡(luò),并隨機(jī)生成預(yù)設(shè)卷積神經(jīng)網(wǎng)絡(luò)權(quán)值;
獲取用于訓(xùn)練所述預(yù)設(shè)卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練句向量;
將所述訓(xùn)練句向量輸入預(yù)設(shè)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行一維卷積操作后,得到預(yù)測(cè)分類標(biāo)簽;
將所述訓(xùn)練句向量輸入至Sigmoid分類器得到所述訓(xùn)練句向量對(duì)應(yīng)的目標(biāo)分類標(biāo)簽;
計(jì)算所述預(yù)測(cè)的分類標(biāo)簽與所述目標(biāo)分類標(biāo)簽的交叉熵?fù)p失,根據(jù)交叉熵?fù)p失調(diào)整所述預(yù)設(shè)卷積神經(jīng)網(wǎng)絡(luò)的權(quán)值,得到目標(biāo)卷積神經(jīng)網(wǎng)絡(luò)。
8.一種基于深度學(xué)習(xí)的個(gè)人主頁(yè)信息提取裝置,其特征在于,所述裝置包括:
第一數(shù)據(jù)處理模塊,用于獲取個(gè)人主頁(yè)網(wǎng)址對(duì)應(yīng)的網(wǎng)頁(yè),并對(duì)所述網(wǎng)頁(yè)進(jìn)行數(shù)據(jù)清洗得到網(wǎng)頁(yè)文本語(yǔ)料;
第二數(shù)據(jù)處理模塊,用于將所述網(wǎng)頁(yè)文本語(yǔ)料進(jìn)行分詞,并通過(guò)匹配對(duì)應(yīng)的詞嵌入表得到詞向量序列;
第一模型處理模塊,用于將所述詞向量序列輸入至目標(biāo)模型中,得到對(duì)應(yīng)的句向量;
第二模型處理模塊,用于將所述句向量輸入至目標(biāo)卷積神經(jīng)網(wǎng)絡(luò)中,得到所述句向量對(duì)應(yīng)的分類標(biāo)簽,將所述分類標(biāo)簽與所述句向量對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容輸出。
9.一種計(jì)算機(jī)設(shè)備,其特征在于,包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述程序時(shí),實(shí)現(xiàn)如權(quán)利要求1-7中任一所述的方法。
10.一種計(jì)算機(jī)存儲(chǔ)介質(zhì),其中,所述計(jì)算機(jī)存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)可執(zhí)行指令;所述計(jì)算機(jī)可執(zhí)行指令被處理器執(zhí)行后,能夠?qū)崿F(xiàn)權(quán)利要求1-7中任一所述的方法。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京智譜華章科技有限公司,未經(jīng)北京智譜華章科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210546058.0/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 根據(jù)用戶學(xué)習(xí)效果動(dòng)態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動(dòng)學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 游戲?qū)W習(xí)效果評(píng)測(cè)方法及系統(tǒng)
- 一種個(gè)人主頁(yè)實(shí)現(xiàn)方法及系統(tǒng)
- 利用包含價(jià)格條碼的個(gè)人主頁(yè)的電子商務(wù)方法及系統(tǒng)
- 個(gè)人主頁(yè)的展示方法及裝置
- 個(gè)人主頁(yè)的顯示方法、裝置、終端及服務(wù)器
- 利用互聯(lián)網(wǎng)服務(wù)平臺(tái)進(jìn)行金融活動(dòng)的方法和裝置
- 一種個(gè)人主頁(yè)的展示方法、裝置、終端設(shè)備及存儲(chǔ)介質(zhì)
- 用于移動(dòng)終端的圖形用戶界面
- 個(gè)人主頁(yè)信息處理方法、裝置及電子設(shè)備
- 帶有應(yīng)用開(kāi)放平臺(tái)功能圖形用戶界面的手機(jī)
- 信息展示方法、裝置、計(jì)算機(jī)設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)





