[發明專利]結合詞向量和自舉學習的領域實體上下位關系獲取與組織方法有效
| 申請號: | 201710484051.X | 申請日: | 2017-06-23 |
| 公開(公告)號: | CN107463607B | 公開(公告)日: | 2020-07-31 |
| 發明(設計)人: | 余正濤;馬曉軍;郭劍毅;陳瑋;張志坤 | 申請(專利權)人: | 昆明理工大學 |
| 主分類號: | G06F16/9535 | 分類號: | G06F16/9535;G06F40/289;G06F40/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 650093 云*** | 國省代碼: | 云南;53 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 結合 向量 學習 領域 實體 下位 關系 獲取 組織 方法 | ||
1.結合詞向量和自舉學習的領域實體上下位關系獲取與組織方法,其特征在于:所述方法的具體步驟如下:
Step1、首先根據自舉學習的方式,從旅游領域的文本中獲取候選的上下位關系實例;
Step1.1、首先人工編寫爬蟲程序,從旅游網站和百科詞條上爬取旅游領域文本信息;
Step1.2、語料的預處理過程采用開源的工具包Ansj完成,包括分詞、詞性標注、去停用詞和命名實體識別過程;
Step1.3、選擇Google的開源工具包word2vec,采用Skip-gram模型對預處理后的語料進行詞向量模型訓練;
Step1.4、對預處理后的文檔進行掃描,篩選出同時含有兩個以上領域實體的句子,選取特征上下文;
Step1.5、種子集的獲取,即每一種上下文文本在去除停用詞和形容詞后,剩余的每個詞都被轉化為單獨的詞向量,然后進行簡單的組合得到特征向量,然后采用三個向量的組合來表示任意關系實例;
Step1.6、從Step1.5中獲取上下位關系種子集,采用Single-pass聚類的方法生成上下位關系抽取模式;
Step1.7、當利用Step1.6得到抽取模式以后,采用新關系實例獲取的方法進行候選關系實例的獲取;
Step2、利用候選的上下位關系實例,人工構建旅游領域知識庫,借鑒映射矩陣對候選上下位關系實例進行層級關系組織;
Step2.1、人工構建領域知識庫作為映射矩陣的訓練數據;
Step2.2、通過對訓練數據的聚類和相應的映射訓練,判斷給定的兩個實體是否存在上下位關系來進行層級關系組織;
所述步驟Step2.1的具體步驟為:
Step2.1.1、人工編寫爬蟲程序,從旅游網站和百科詞條上爬取旅游領域文本信息;
Step2.1.2、采用開源的工具包Ansj完成,包括分詞、詞性標注,統計詞頻,得到和種子同現頻率高的詞匯作為領域詞匯集;
Step2.1.3、采用互動百科的分類體系作為基礎,構建出包含10000個領域實體的旅游領域知識庫;
所述步驟Step2.2的具體步驟為:
Step2.2.1、從數據集中隨機選擇K個聚類質心點,將上下位關系實體對(x,y)根據向量偏移y-x采用K-means聚類方法進行聚類;
Step2.2.2、對于Step2.2.1步驟得到的每一個簇分別學習一個映射使Φk*值最小;
其中,Φk*表示映射矩陣,(x,y)表示上下位關系對,意思是給定實體x和它的上位詞y,存在矩陣Φk,使得其中x表示y的下位詞,y是x的上位詞,Φk表示過渡矩陣;Nk是聚類簇集Ck第k個聚類簇中實體對的數量;
Step2.2.3、從Step2.2.2步驟得到每一類的映射矩陣后,判斷新來的詞對是否構成上下位關系;
Step2.2.4、采用啟發式的規則處理層次結構中沖突問題,當圖中出現環的時候,去掉或翻轉最弱的邊,翻轉最弱的邊形成一個間接的上下位關系。
2.根據權利要求1所述的結合詞向量和自舉學習的領域實體上下位關系獲取與組織方法,其特征在于:所述步驟Step1.2的具體步驟為:
Step1.2.1、對爬取的網頁文本信息進行有效的過濾,去無效字符和網頁;
Step1.2.2、對得到的有效網頁進行去重、去垃圾信息預處理操作;
Step1.2.3、使用Ansj分詞工具對旅游文本進行分詞、詞性標注、去停用詞和命名實體識別的過程。
3.根據權利要求1所述的結合詞向量和自舉學習的領域實體上下位關系獲取與組織方法,其特征在于:所述步驟Step1.4的具體步驟為:
Step1.4.1、以句子為單位對文本進行切分,并進行人工的實體標注;
Step1.4.2、最后對處理過的文檔進行掃描,篩選出同時含有兩個以上領域實體的句子,選取第一個實體前的詞BEF、兩個實體間的詞BET和第二個實體后的詞AFT作為特征上下文。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于昆明理工大學,未經昆明理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710484051.X/1.html,轉載請聲明來源鉆瓜專利網。





