[發明專利]融合維基知識的變分半監督百度百科分類方法有效
| 申請號: | 202110263630.8 | 申請日: | 2021-03-11 |
| 公開(公告)號: | CN113032558B | 公開(公告)日: | 2023-08-29 |
| 發明(設計)人: | 余正濤;韓佩甫;郭軍軍;黃于欣;朱恩昌 | 申請(專利權)人: | 昆明理工大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/30;G06F40/216;G06N3/0499;G06N3/047 |
| 代理公司: | 昆明隆合知識產權代理事務所(普通合伙) 53220 | 代理人: | 何嬌 |
| 地址: | 650093 云*** | 國省代碼: | 云南;53 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 融合 知識 變分半 監督 百度 百科 分類 方法 | ||
本發明涉及融合維基知識的變分半監督百度百科分類方法,屬于自然語言處理技術領域。本發明首先基于詞嵌入和詞袋模型分別獲得百科摘要文本的語義特征和統計特征;然后融合兩者作為變分自編碼模型的輸入,獲得百科文本的語義表征;最后利用少量維基百科分類損失和海量無標簽百度百科重構損失,構造半監督分類損失,實現了兩種百科分類體系的遷移和統一。基于5千條帶標記維基百科數據和20萬無標記百度百科數據的實驗表明,所提方法可以準確實現百度百科分類索引體系的準確建立,證明了其有效性。
技術領域
本發明涉及融合維基知識的變分半監督百度百科分類方法,屬于自然語言處理技術領域。
背景技術
百科分類是在給定的分類體系中,將百科知識分到某一或某幾個類別當中。維基百科和百度百科知識庫的索引界定不同,百科知識庫之間公共的索引體系的缺失為跨百科工作制造了困難。而建立統一的分類索引體系能夠將不同語言或不同機構的百科知識統一到同一分類體系,不僅能夠幫助不同語言的知識共享全球化,而且使許多在線應用程序,比如信息檢索、智能問答和機器翻譯,受益匪淺。維基百科的索引體系清晰全面,而百度百科的不明確,為了能夠跨百科利用知識庫,可以基于維基百科索引對百度百科進行分類,從而建立兩種百科的公共索引體系。
針對兩種百科建立公共分類體系的問題,由于監督和半監督的文本分類的人工標注成本較高,所以本發明嘗試基于少量監督的維基百科數據對百度百科詞條文本進行分類。借助半監督變分表征的思想,采用基于VAE半監督的對百科摘要文本進行表征,并用表征后的特征對文本進行分類。基于5千條帶標記維基百科數據和20萬無標記百度百科數據的實驗表明,所提方法可以準確實現百度百科分類索引體系的準確建立,證明了其有效性。
發明內容
本發明提供了融合維基知識的變分半監督百度百科分類方法,采用基于VAE半監督的對百科摘要文本進行表征,并用表征后的特征對文本進行分類。
本發明的技術方案是:融合維基知識的變分半監督百度百科分類方法,包含如下步驟:
Step1、收集維基百科中文詞條摘要和百度百科中文詞條摘要作為實驗數據集,并進行去重、去除特殊符號、標點和URL數據預處理操作;取維基百科中文詞條摘要數據5000條進行人工標注類別;百度百科中文詞條摘要數據全部標記為:“unlabeled”,表示還沒有類別;
Step2、基于詞嵌入,采用自注意力機制對百科中文詞條摘要文本進行編碼,對百科中文詞條摘要文本進行深度語義嵌入表征獲得百科中文詞條摘要文本的深度語義表示;基于詞袋模型對百科中文詞條摘要文本進行統計表征;
Step3、構建融合深度語義特征和統計特征的VAE文本表征模型:在Step1和Step2的基礎上,將百科中文詞條摘要文本的深度語義表示和統計表征進行拼接,作為VAE文本表征模型的輸入,以此融合豐富的深度語義信息和統計信息;其次,使用兩層全連接神經網絡中提取出百科中文詞條摘要文本表征的均值和方差,得到融合文本表征的重構向量;
Step4、構建基于維基類別遷移的百度文本分類模型:在Step3的基礎上,將融合文本表征的重構向量代替原始百科中文詞條摘要文本,作為VAE文本表征模型的輸入,以此引入摘要類別信息;其次,將百度百科中文詞條摘要表征的類別信息視為潛在變量,對其進行后驗推理得出預測分布,最后將預測分布輸入softmax層,輸出歸一化的類別概率分布,實現百度百科在維基檢索體系下的分類。
作為本發明的進一步方案,所述Step1中,維基百科中文詞條摘要數據中每條數據的人工標簽為:“生活、藝術與文化”、“世界各地”、“中華文化”、“人文與社會科學”、“社會”、“自然與自然科學”、“宗教與信仰”、“工程、技術與應用科學”這8種類別之一。
作為本發明的進一步方案,所述Step3中包含的分類策略直接將維基百科的類別信息作為百度百科的類別描述。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于昆明理工大學,未經昆明理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110263630.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種氣膜孔結構及渦輪葉片
- 下一篇:一種補腎強筋的藥丸及其制備方法





