[發明專利]一種基于實體類型和語義相似度的知識圖譜問答方法及系統在審
| 申請號: | 201811570277.2 | 申請日: | 2018-12-21 |
| 公開(公告)號: | CN109657037A | 公開(公告)日: | 2019-04-19 |
| 發明(設計)人: | 王穎;王婷 | 申請(專利權)人: | 焦點科技股份有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/332;G06F16/36 |
| 代理公司: | 南京瑞弘專利商標事務所(普通合伙) 32249 | 代理人: | 陳建和 |
| 地址: | 210032 江蘇省南京*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 圖譜 實體類型 邏輯表達式 語義 語義相似度 領域知識 邏輯數據 三元組 相似度計算 查詢信息 計算實體 實體關系 實體識別 實體屬性 問題模板 查詢 詞向量 二元組 相似度 構建 映射 排序 替換 答案 返回 | ||
1.一種基于實體類型和語義相似度的知識圖譜問答方法,其特征是,以構建好的領域知識圖譜為基礎,實現基于實體類型和文本相似度的語義映射,通過以下步驟:
步驟1:實體識別,構建好的領域知識圖譜包含不同類型實體,領域知識圖譜中的實體按實體類型分類,每一類別生成實體類詞表;
通過全遍歷的方式,即遍歷實體類詞表,識別輸入問題所包含的實體類型和實體,保存為實體類型和實體相對應的二元組,同時用實體類型替換輸入問題中的實體,將輸入問題模板化,生成問題模板;
步驟2:相似度計算;對上述替換后獲得的問題模板,根據實體類型和詞向量,計算實體類型和其與模板-邏輯數據集中給定模板的相似度值并排序,返回語義最相近的模板,在模板-邏輯數據集中查詢該模板的邏輯表達式,作為輸入問題的邏輯表達式;
步驟3:領域知識圖譜的查詢;將步驟1中識別出的實體類型、實體二元組鏈接到知識圖譜對應實體或實體屬性,將步驟2中獲得的邏輯表達式映射到知識圖譜中對應的實體關系,以此形成該輸入問題的語義三元組;根據語義三元組在知識圖譜上查詢信息,生成答案。
2.根據權利要求1中所述的基于實體類型和語義相似度的知識圖譜問答方法及系統,其特征是,
步驟1中:
步驟11,輸入領域內待回答問題;
步驟12,實體識別,將領域知識圖譜中的實體按實體類型分類,每一類別生成實體類詞表;遍歷實體類詞表,識別輸入問題中的實體;
步驟13,對識別出的實體對象,標記其實體類型,保存為(實體,實體類型)的二元組形式。
步驟14,對輸入問題的實體對象,用實體類型替換;
步驟15,實體替換實體類型后的輸入問題即為問題模板。
3.根據權利要求1中所述的基于實體類型和語義相似度的知識圖譜問答方法及系統,其特征是,
步驟2中,
步驟21,用實體類型表示的問題模板,即步驟15的問題模板;
步驟22,模板-邏輯數據集,此部分為人工構建;收集領域內的常見問題,按照步驟2識別這些問題中涉及的實體,獲得常見問題的問題模板;然后以知識圖譜中的關系為基礎,逐條將問題模板中的語義關系映射到圖譜中的關系,并用邏輯表達式表示;
對領域內的常見問題,基于領域知識圖譜,通過實體識別和關系映射,形成模板-邏輯數據集;
步驟23,模板過濾;在模板-邏輯數據集中篩選,保留與輸入問題模板實體類型一致的模板;
步驟24,基于詞向量的模板相似度計算;即計算詞向量和模板-邏輯數據集中給定模板的相似度值并排序,借助word mover’s distance(WMD)計算模板和模板間的相似度,WMD的值越小,表示相似度越高;WMD計算基于詞向量的詞語表示,借助EMD計算兩文本詞匯間的轉移成本,具體公式如下:
C(i,j)=|xi-xj|2
其中xi表示詞語x的詞向量,C(i,表示詞i和詞j之間的余弦距離;ci表示詞語出現的頻次,di表示詞語在文本中的權重,Tij表示詞語i有多少轉移到了詞語j中;對詞語x的詞向量,下載中文wiki百科語料,并對語料進行分詞,將分詞后語料輸入word2vec模型,訓練得詞向量模型;
步驟25,對計算所得的距離排序,距離越小,相似度越大;
步驟26,選擇相似度最大的目標作為近義模板;
步驟27,返回語義最相近的模板,模板-邏輯數據集中查詢該模板的邏輯表達式,上述近義模板在模板-邏輯數據集中對應的邏輯表達式即為輸入問題的邏輯表達式。
4.根據權利要求1中所述的基于實體類型和語義相似度的知識圖譜問答方法及系統,其特征是,
步驟3中,步驟31,輸入問題模板的邏輯表達式,即步驟27中的邏輯表達式;
步驟32,輸入問題對應的(實體類型,實體),即步驟13中的二元組(實體類型,實體);
步驟33,將(實體類型,實體)鏈接到知識圖譜中對應的實體對象;
步驟34,將邏輯表達式映射到圖譜中的關系上,例如邏輯表達式的food_fit_food映射到圖譜中食物間的關系relation:food_fit_food上;
步驟35,實體鏈接和關系映射的結果聯合,將問題表示成語義三元組的形式,即識別出的實體類型、實體二元組鏈接到知識圖譜對應實體或實體屬性,將獲得的邏輯表達式映射到知識圖譜中對應的實體關系,以此形成該輸入問題的語義三元組;根據語義三元組在知識圖譜上查詢信息,生成答案。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于焦點科技股份有限公司,未經焦點科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811570277.2/1.html,轉載請聲明來源鉆瓜專利網。





