[發(fā)明專利]融合維基知識的變分半監(jiān)督百度百科分類方法有效
| 申請?zhí)枺?/td> | 202110263630.8 | 申請日: | 2021-03-11 |
| 公開(公告)號: | CN113032558B | 公開(公告)日: | 2023-08-29 |
| 發(fā)明(設(shè)計)人: | 余正濤;韓佩甫;郭軍軍;黃于欣;朱恩昌 | 申請(專利權(quán))人: | 昆明理工大學(xué) |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/30;G06F40/216;G06N3/0499;G06N3/047 |
| 代理公司: | 昆明隆合知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 53220 | 代理人: | 何嬌 |
| 地址: | 650093 云*** | 國省代碼: | 云南;53 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 融合 知識 變分半 監(jiān)督 百度 百科 分類 方法 | ||
1.融合維基知識的變分半監(jiān)督百度百科分類方法,其特征在于:包含如下步驟:
Step1、收集維基百科中文詞條摘要和百度百科中文詞條摘要作為實驗數(shù)據(jù)集,并進行去重、去除特殊符號、標(biāo)點和URL數(shù)據(jù)預(yù)處理操作;取維基百科中文詞條摘要數(shù)據(jù)進行人工標(biāo)注類別;百度百科中文詞條摘要數(shù)據(jù)全部標(biāo)記為:“unlabeled”,表示還沒有類別;
Step2、基于詞嵌入,采用自注意力機制對百科中文詞條摘要文本進行編碼,對百科中文詞條摘要文本進行深度語義嵌入表征獲得百科中文詞條摘要文本的深度語義表示;基于詞袋模型對百科中文詞條摘要文本進行統(tǒng)計表征;
Step3、構(gòu)建融合深度語義特征和統(tǒng)計特征的VAE文本表征模型:在Step1和Step2的基礎(chǔ)上,將百科中文詞條摘要文本的深度語義表示和統(tǒng)計表征進行拼接,作為VAE文本表征模型的輸入,以此融合豐富的深度語義信息和統(tǒng)計信息;其次,使用兩層全連接神經(jīng)網(wǎng)絡(luò)中提取出百科中文詞條摘要文本表征的均值和方差,得到融合文本表征的重構(gòu)向量;
Step4、構(gòu)建基于維基類別遷移的百度文本分類模型:在Step3的基礎(chǔ)上,將融合文本表征的重構(gòu)向量代替原始百科中文詞條摘要文本,作為VAE文本表征模型的輸入,以此引入摘要類別信息;其次,將百度百科中文詞條摘要表征的類別信息視為潛在變量,對其進行后驗推理得出預(yù)測分布,最后將預(yù)測分布輸入softmax層,輸出歸一化的類別概率分布,實現(xiàn)百度百科在維基檢索體系下的分類;
所述Step4中,基于維基類別遷移的百度文本分類策略,該策略將融合文本表征的重構(gòu)向量代替原始百科中文詞條摘要文本,作為VAE文本表征模型的輸入,并將百度百科中文詞條摘要表征的類別信息視為潛在變量,對于維基百科由于類別信息已知,直接計算變分界值,輸出變分界值;對于百度百科,對類別潛在變量進行后驗推理后計算并輸出變分界值;兩種變分界值的和作為整體的變分界約束輸出;將分類損失添加到整體變分界約束中,使得百度百科的分類分布從維基百科的含標(biāo)簽向量中學(xué)習(xí),最終輸出百度百科的類別概率分布,訓(xùn)練了基于遷移學(xué)習(xí)的百度百科分類器,找到一種有效的半監(jiān)督百科摘要分類方法;
所述Step4中,基于維基類別遷移的百度文本分類方法如下:
將通過VAE提取到的特征x的隱層向量進行分類;將特征x的隱層向量視為由類別向量l和連續(xù)向量z兩部分組成,生成過程表示為:p(l)=Cat(l|π);其中Cat(l|π)是多項分布,并且由于p(z)=N(z|0,I),所以VAE解碼層公式變化為:pθ(x|l,z)=f(x;l,z,θ);
任何缺失標(biāo)簽的預(yù)測都是從推斷的后驗分布pθ(l|x)中得到的;將Step3中提取出的隱層特征用來代替原始摘要文本X={x,l}和Y={y}作為VAE的輸入,過程描述為:pθ(x,l,z′,z)=p(l)p(z)pθ(z′|l,z)pθ(x|z′);其中p(l)和p(z)是Step3中的參數(shù)化隱層變量,z′是VAE生成的隱層向量,pθ(z′|l,z)和pθ(x|z′)是VAE的解碼端;
為每個隱層向量z′和l引入了一個推理模型,它有一個分解形式分解形式分別指定為高斯分布和多項式分布;關(guān)于變分界的計算,有兩種情況;對于維基百科,能觀察到數(shù)據(jù)點對應(yīng)的類別標(biāo)簽,則變分界是(12)的簡單擴展:
對于百度百科,類別標(biāo)簽不可查,將類別標(biāo)簽視為潛在變量,對此變量進行后驗推理,得到的結(jié)果用于處理百度百科的數(shù)據(jù)點:
則對于整體數(shù)據(jù)集的變分界約束就是:
但是在上式變分界約束目標(biāo)函數(shù)中,標(biāo)簽預(yù)測分布只對與未標(biāo)記數(shù)據(jù)相關(guān)的第二項作出貢獻,將分類損失添加到上式變分界約束目標(biāo)函數(shù)中,這樣分布也從標(biāo)記數(shù)據(jù)中學(xué)習(xí):
其中,超參數(shù)α控制生成學(xué)習(xí)和純判別學(xué)習(xí)之間的相對權(quán)重。
2.根據(jù)權(quán)利要求1所述的融合維基知識的變分半監(jiān)督百度百科分類方法,其特征在于:所述Step1中,維基百科中文詞條摘要數(shù)據(jù)中每條數(shù)據(jù)的人工標(biāo)簽為:“生活、藝術(shù)與文化”、“世界各地”、“中華文化”、“人文與社會科學(xué)”、“社會”、“自然與自然科學(xué)”、“宗教與信仰”、“工程、技術(shù)與應(yīng)用科學(xué)”這8種類別之一。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于昆明理工大學(xué),未經(jīng)昆明理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110263630.8/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
- 在即時通信中提供即時監(jiān)督功能的方法及系統(tǒng)
- 一種監(jiān)督事件的生成裝置
- 一種資產(chǎn)托管監(jiān)督任務(wù)的處理方法及裝置
- 一種監(jiān)督方法及裝置
- 基于自監(jiān)督學(xué)習(xí)的標(biāo)簽比例學(xué)習(xí)模型的訓(xùn)練方法和設(shè)備
- 一種衛(wèi)生監(jiān)督對象尋址方法、電子設(shè)備及存儲介質(zhì)
- 一種機器人表情調(diào)用方法和家用機器人
- 計算機視覺訓(xùn)練系統(tǒng)和用于訓(xùn)練計算機視覺系統(tǒng)的方法
- 一種基于廠區(qū)智能管理系統(tǒng)的工廠設(shè)備監(jiān)督系統(tǒng)
- 信息化綜合監(jiān)督系統(tǒng)及方法





