[發明專利]基于Wikipedia鏈接結構的英文概念向量生成方法和裝置有效
| 申請號: | 201711407859.4 | 申請日: | 2017-12-22 |
| 公開(公告)號: | CN108132928B | 公開(公告)日: | 2021-10-15 |
| 發明(設計)人: | 薛若娟 | 申請(專利權)人: | 山東師范大學 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F40/216;G06K9/62;G06N3/08 |
| 代理公司: | 濟南圣達知識產權代理有限公司 37221 | 代理人: | 張勇 |
| 地址: | 250014 山*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 wikipedia 鏈接 結構 英文 概念 向量 生成 方法 裝置 | ||
本發明公開了一種基于Wikipedia鏈接結構的英文概念向量生成方法和裝置,該方法包括:根據英文Wikipedia頁面中的標題概念和/或鏈接概念構建鏈接信息庫;針對鏈接信息庫中樣本是否存在鏈接概念分別構建訓練正例和訓練負例,選擇一定數量訓練正例和訓練負例建立訓練數據集;建立概念向量模型,模型包括輸入層、嵌入層、概念向量運算層和輸出層;采用訓練數據集訓練概念向量模型,并由概念向量模型中提取概念向量。
技術領域
本發明屬于自然語言處理的技術領域,尤其是涉及一種基于Wikipedia鏈接結構的英文概念向量生成方法和裝置。
背景技術
Wikipedia,維基百科,是當前規模最大的百科全書,其不僅是一個規模巨大的語料庫,而且還是一個包含了大量人類背景知識和語義關系的知識庫,是進行自然語言處理的理想資源。
詞語概念的語義表示是自然語言處理領域的一個基礎問題。傳統的方法可分為基于共現計數(count-based)的方法和基于預測(prediction-based)的方法。前者,首先統計詞語概念的共現計數,通過對共現矩陣的分解而學習詞語的概念向量;后者,通過預測給定上下文環境中的共現詞而學習詞語的概念向量。這兩種方法實質上均通過挖掘利用語料庫中蘊含的詞語共現信息而學習詞語概念的向量表示。當前流行的word2vec詞向量方法屬于后者。
自然語言文本中,普遍存在一詞多義的問題。然而,現有的詞向量方法,通常只能從詞形上對詞語進行區分,而不能從本質上區分詞語所對應的詞義概念。對于一個詞語,只能學習到一個統一的向量表示;而這個詞語,可能會對應多個詞義概念;顯然,現在方法無法準確區分這些詞義概念。
綜上所述,現有技術的詞向量方法無法從本質上區分詞義概念的問題,尚缺乏行之有效的解決方案。
發明內容
針對現有技術中存在的不足,解決現有技術的詞向量方法無法從本質上區分詞義概念的問題,本發明提出了一種基于Wikipedia鏈接結構的英文概念向量生成方法和裝置,解決了Wikipedia的鏈接信息庫的構建問題、提出了概念向量訓練數據集的構建方法、并設計了概念向量的訓練模型及訓練方法、概念向量矩陣的返回方法。
本發明的第一目的是提供一種基于Wikipedia鏈接結構的英文概念向量生成方法。
為了實現上述目的,本發明采用如下一種技術方案:
一種基于Wikipedia鏈接結構的英文概念向量生成方法,該方法包括:
根據英文Wikipedia頁面中的標題概念和/或鏈接概念構建鏈接信息庫;
針對鏈接信息庫中樣本是否存在鏈接概念分別構建訓練正例和訓練負例,選擇一定數量訓練正例和訓練負例建立訓練數據集;
建立概念向量模型,模型包括輸入層、嵌入層、概念向量運算層和輸出層;
采用訓練數據集訓練概念向量模型,并由概念向量模型中提取概念向量。
作為進一步的優選方案,該方法還包括根據英文Wikipedia頁面中的正文描述和類別鏈接信息結合標題概念和/或鏈接概念構建鏈接信息庫。
作為進一步的優選方案,所述構建鏈接信息庫的具體方法為:
預處理原始英文Wikipedia頁面,得到處理后的有效文本數據;
統計處理后的有效文本數據中的標題概念、鏈接概念和類別鏈接的出現頻次,得到當前頁面的標題概念、鏈接概念和類別鏈接的頻次信息;
根據所有頁面中的標題概念及其相應的鏈接概念和類別鏈接的頻次信息構建鏈接信息庫;
在整個鏈接信息庫中,統計標題概念、鏈接概念和類別鏈接的出現頻次,得到英文Wikipedia語料庫的標題概念、鏈接概念和類別鏈接的頻次信息。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山東師范大學,未經山東師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711407859.4/2.html,轉載請聲明來源鉆瓜專利網。





