[發(fā)明專利]一種融合詞向量和主題模型的領域實體消歧方法有效
| 申請?zhí)枺?/td> | 201710913216.0 | 申請日: | 2017-09-30 |
| 公開(公告)號: | CN107861939B | 公開(公告)日: | 2021-05-14 |
| 發(fā)明(設計)人: | 余正濤;馬曉軍;郭劍毅;陳瑋;張志坤 | 申請(專利權)人: | 昆明理工大學 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F40/295;G06F16/951 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 650093 云*** | 國省代碼: | 云南;53 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 融合 向量 主題 模型 領域 實體 方法 | ||
1.一種融合詞向量和主題模型的領域實體消歧方法,其特征在于:
所述方法的具體步驟為:
Step1、首先利用旅游領域的百科語料進行詞向量模型訓練;
Step2、從維基百科知識庫中獲取待消歧實體的候選實體集合;
Step3、結合詞向量模型和LDA主題模型,充分利用上下文特征相似度、上下位關系類別指稱特征相似度和領域主題關鍵詞特征相似度進行領域實體消歧;
所述Step3的具體步驟如下:
Step3.1、獲取待消歧實體所在文本和候選實體所在文本的上下文環(huán)境,利用詞向量模型訓練上下文環(huán)境得到上下文特征,然后進行上下文特征相似度的計算;
Step3.2、利用K-means聚類算法獲取待消歧實體所在文本的高頻詞,利用上下位關系領域知識庫獲取高頻詞在知識庫中所屬的類別指稱特征,即上位詞,與候選實體所屬的類別名稱進行上下位關系類別指稱特征相似度的計算。
Step3.3、利用LDA主題模型對訓練語料進行上下文主題建模,再進行分類,在不同主題下對多義詞進行語義標注,利用詞向量模型進行訓練獲取多義詞的不同詞向量,利用K-means聚類算法獲取不同主題下的關鍵詞特征,然后與候選實體進行主題關鍵詞特征相似度的計算;
Step3.4、充分利用上下文特征相似度、上下位關系類別指稱特征相似度和領域主題關鍵詞特征相似度進行特征相似度的融合,然后進行領域實體消歧。
2.根據權利要求1所述的融合詞向量和主題模型的領域實體消歧方法,其特征在于:所述Step1的具體步驟為:
Step1.1、從維基百科的中文離線數據庫,提取旅游分類下的頁面信息,并提取頁面的摘要信息,保存在文本中;
Step1.2、人工編寫爬蟲程序,從旅游網站和百科詞條上爬取旅游領域文本信息,與維基的文本進行結合;
Step1.3、對Step1.2步驟獲得的語料進行預處理,采用開源的工具包中科院漢語詞法分析系統(tǒng)ICTCLAS完成,包括分詞、詞性標注、去停用詞和命名實體識別過程;
Step1.4、選擇Google的開源工具包word2vec,采用Skip-gram模型對預處理后的語料進行詞向量模型訓練。
3.根據權利要求1所述的融合詞向量和主題模型的領域實體消歧方法,其特征在于:所述Step2的具體步驟為:
Step2.1、下載維基百科的中文離線數據庫,并提取其中旅游分類下的頁面信息;
Step2.2、從實體頁面、重定向頁面、消歧頁面、超鏈接中獲取待消歧實體的候選實體。
4.根據權利要求2所述的融合詞向量和主題模型的領域實體消歧方法,其特征在于:所述Step1.3的具體步驟為:
Step1.3.1、對爬取的網頁文本信息進行有效的過濾,去無效字符和網頁;
Step1.3.2、對得到的有效網頁進行去重、去垃圾信息預處理操作;
Step1.3.3、使用中科院漢語詞法分析系統(tǒng)ICTCLAS對旅游文本進行分詞、詞性標注、去停用詞和命名實體識別的過程。
5.根據權利要求1所述的融合詞向量和主題模型的領域實體消歧方法,其特征在于:所述Step3.1的具體步驟為:
Step3.1.1、對于某待消歧的實體G,其背景文本經過預處理后,用訓練好的詞向量模型進行向量的表示,其向量表示為
Step3.1.2、對于候選實體,通過在知識庫中獲取實體的摘要,經過向量表示后為;
Step3.1.3、待消歧實體G和候選實體G候選之間的相似度通過計算和之間的相似度來計算,相似度計算公式:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于昆明理工大學,未經昆明理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710913216.0/1.html,轉載請聲明來源鉆瓜專利網。





