[發明專利]一種面向領域的概念抽取方法、終端設備及存儲介質在審
| 申請號: | 201910055910.2 | 申請日: | 2019-01-21 |
| 公開(公告)號: | CN109753664A | 公開(公告)日: | 2019-05-14 |
| 發明(設計)人: | 仇晶;田志宏;殷麗華;柴瑜晗;顧釗銓;李樹棟;韓偉紅;方濱興 | 申請(專利權)人: | 廣州大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F16/332 |
| 代理公司: | 廣州三環專利商標代理有限公司 44202 | 代理人: | 顏希文;麥小嬋 |
| 地址: | 510000 廣東省廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 領域術語 概念抽取 詞向量 語義圖 語料 預處理 存儲介質 輸入文件 終端設備 相似度 構建 關聯 余弦相似度 公式計算 獲取目標 社區發現 閾值篩選 大數據 準確率 算法 抽取 詞語 取出 統計 分析 發現 | ||
本發明公開了一種面向領域的概念抽取方法、終端設備及存儲介質,所述方法包括獲取目標領域的語料,并對語料進行預處理,作為詞向量訓練的輸入文件;采用規則和統計相結合的方法,從預處理后的語料中抽取出若干個領域術語;將所述輸入文件輸入Word2vec工具進行所述詞向量訓練,得到與若干個詞語一一對應的詞向量;對所述抽取的領域術語,根據所述詞向量并采用余弦相似度公式計算兩兩領域術語之間的相似度;根據設定的相似度閾值篩選有關聯的領域術語對,進行語義圖的構建;根據所述語義圖,采用社區發現算法進行概念抽取,得到概念集。本發明能夠通過構建和分析語義圖,發現大數據中各個領域術語之間的關聯,從而提高概念抽取的準確率和實用性。
技術領域
本發明涉及大數據技術領域,尤其涉及一種面向領域的概念抽取方法、終端設備及存儲介質。
背景技術
隨著互聯網技術的飛速發展,數據量在不斷遞增,從海量數據中挖掘有效信息變得越來越重要。在這個過程中知識圖譜,特別是領域知識圖譜發揮了重要的作用,成為互聯網知識驅動智能應用的基礎設施。對于領域知識圖譜的構建,首先應該構建領域知識圖譜的數據模式。由于領域數據的龐大性,且大部分是非結構化文本,因而自動構建領域知識圖譜的數據模式成為該領域研究的重點。
但是,目前國內外的概念抽取方法主要分為人工識別和自動識別兩大類,人工識別主要是依靠專家知識進行概念抽取,或者同時依靠專家知識和從百科等其它來源所收集的相關信息來進行概念抽?。欢詣幼R別則主要將統計和規則的方法進行概念抽取。雖然已經研究出許多的領域概念抽取方法,但是在實際的應用中,存在著實用性不足的問題。
發明內容
有鑒于此,本發明提出一種面向領域的概念抽取方法、終端設備及存儲介質,能夠充分利用語義信息,發現領域術語之間的關聯,從而提高概念抽取的準確率和實用性。
為實現上述目的,本發明的一個實施例提供一種面向領域的概念抽取方法,包括:
獲取目標領域的語料,并對所述語料進行預處理,作為詞向量訓練的輸入文件;所述預處理包括分詞和去停用詞;
采用規則和統計相結合的方法,從預處理后的語料中抽取出若干個領域術語;
將所述輸入文件輸入Word2vec工具進行所述詞向量訓練,得到與若干個詞語一一對應的詞向量;
對所述抽取的領域術語,根據所述詞向量并采用余弦相似度公式計算兩兩領域術語之間的相似度;根據設定的相似度閾值篩選有關聯的領域術語對,進行語義圖的構建;
根據所述語義圖,采用社區發現算法進行概念抽取,得到概念集。
進一步地,所述詞向量訓練,具體為:
將所述輸入文件輸入至Word2vec工具;
設置窗口閾值和向量維度,對小于所述窗口閾值的數據進行剪枝處理;
根據Skip-gram模型對剪枝處理后的輸入文件進行詞向量訓練,得到與若干個詞語一一對應的詞向量。
進一步地,所述余弦相似度公式為
其中,Sim(term1,term2)為兩個領域術語間的相似度,t1和t2為兩個領域術語的向量,n為向量的維度。
進一步地,所述語義圖的形式為SG=(V,E,W)
其中,V為所述領域術語的集合,V={v1,v2,…,vn},n為所述領域術語的總量,為所述領域術語之間的邊緣,W為所述領域術語之間的相似度。
進一步地,所述語義圖的構建,具體為:
將所述領域術語作為所述語義圖的節點;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州大學,未經廣州大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910055910.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種客戶情緒分級方法及裝置
- 下一篇:喚醒模型的更新方法及裝置





