[發明專利]結合詞向量和自舉學習的領域實體上下位關系獲取與組織方法有效
| 申請號: | 201710484051.X | 申請日: | 2017-06-23 |
| 公開(公告)號: | CN107463607B | 公開(公告)日: | 2020-07-31 |
| 發明(設計)人: | 余正濤;馬曉軍;郭劍毅;陳瑋;張志坤 | 申請(專利權)人: | 昆明理工大學 |
| 主分類號: | G06F16/9535 | 分類號: | G06F16/9535;G06F40/289;G06F40/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 650093 云*** | 國省代碼: | 云南;53 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 結合 向量 學習 領域 實體 下位 關系 獲取 組織 方法 | ||
本發明涉及一種結合詞向量和自舉學習的領域實體上下位關系獲取與組織方法,屬于自然語言處理和機器學習技術領域。本發明首先根據自舉學習的方式,從旅游領域的文本中獲取候選的上下位關系實例,利用候選的上下位關系實例,人工構建旅游領域知識庫,借鑒映射矩陣對候選上下位關系實例進行層級關系組織。本發明對上下位關系實現了有效的抽取,為信息抽取、信息檢索和機器翻譯等工作提供強有力的支撐,與目前識別方法相比,本發明的正確率、召回率、F值均有提高,因此本發明具有一定的研究意義。
技術領域
本發明涉及結合詞向量和自舉學習的領域實體上下位關系獲取與組織方法,屬于自然語言處理和機器學習技術領域。
背景技術
上下位關系是一種基本的語義關系,常用于本體、知識庫、詞典的構建和驗證。從技術實現的角度來看,上下位關系獲取為其它信息的獲取提供了重要支持,其對本體、知識庫、詞典進行正確性檢測,并對其進行擴充和完善。并且能夠獲取名詞短語,特別是未登錄詞的語義信息,通過擴展可以獲取更多的概念間語義關系。總體來說,上下位關系獲取是知識獲取中一個基本而又關鍵的問題,是非格式化信息轉換為格式化信息過程中的重要步驟,它為進一步的信息處理如數據庫查詢、數據挖掘、文本挖掘等提供了基礎性支持。同時上下位關系獲取還能對信息檢索、知識問答、個性化信息服務等的實現起到一定的支持作用。
發明內容
本發明提供了一種結合詞向量和自舉學習的領域實體上下位關系獲取與組織方法,以用于解決傳統的上下位關系抽取方法對語料依賴程度高,抽取效率比較低的影響。
本發明的技術方案是:一種結合詞向量和自舉學習的領域實體上下位關系獲取與組織方法,所述方法的具體步驟如下:
Step1、首先根據自舉學習的方式,從旅游領域的文本中獲取候選的上下位關系實例;
Step1.1、首先人工編寫爬蟲程序,從旅游網站和百科詞條上爬取旅游領域文本信息;
本發明考慮到由于不同的網頁結構,爬蟲程序中爬取的位置和標簽也不同,且沒有現成的程序,因此針對爬取不同任務要進行編寫程序。要盡可能全面地選取不同旅游網頁題材的語料。如百度百科詞條,旅游網頁信息等。
Step1.2、語料的預處理過程采用開源的工具包Ansj完成,包括分詞、詞性標注、去停用詞和命名實體識別過程;
本發明考慮到爬取到的旅游文本中存在一些重復網頁、網頁標簽、無效字符等噪音,這些噪音是無效的。因此,要通過過濾、去噪音等操作去除,得到只含有旅游領域的高質量的文本級語料。
所述步驟Step1.2的具體步驟為:
Step1.2.1、對爬取的網頁文本信息進行有效的過濾,去無效字符和網頁;
Step1.2.2、對得到的有效網頁進行去重、去垃圾信息預處理操作;
Step1.2.3、使用Ansj分詞工具對旅游文本進行分詞、詞性標注、去停用詞和命名實體識別的過程。
Step1.3、由于詞向量可將詞語表征為高密度的低維實數向量,可以很好的表征詞語之間的詞法、句法以及語義方面的信息,因此選擇Google的開源工具包word2vec,采用Skip-gram模型對預處理后的語料進行詞向量模型訓練;
本發明中詞向量模型的訓練過程,是上下位關系抽取工作的前提與基礎,是不可缺少的一步,同時由于中文主要由字符組成,相比英文而言,字符間的語義關系表達比較復雜,因此中文文本表示成詞向量時,必須先進行分詞處理。使用分詞工具進行分詞之后,需要人工校對。
Step1.4、對預處理后的文檔進行掃描,篩選出同時含有兩個以上領域實體的句子,選取特征上下文;
所述步驟Step1.4的具體步驟為:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于昆明理工大學,未經昆明理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710484051.X/2.html,轉載請聲明來源鉆瓜專利網。





