[發明專利]一種基于相似性的知識庫問答實體鏈接方法及系統在審
| 申請號: | 202010981857.1 | 申請日: | 2020-09-17 |
| 公開(公告)號: | CN112100356A | 公開(公告)日: | 2020-12-18 |
| 發明(設計)人: | 何儒漢;唐嬌;陳佳;張自力;彭濤;胡新榮;李相朋 | 申請(專利權)人: | 武漢紡織大學 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F16/33;G06F40/295;G06N3/04 |
| 代理公司: | 北京金智普華知識產權代理有限公司 11401 | 代理人: | 楊采良 |
| 地址: | 430200 湖北省武漢市*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 相似性 知識庫 問答 實體 鏈接 方法 系統 | ||
1.一種基于相似性的知識庫問答實體鏈接方法,其特征在于,應用于客戶端,所述基于相似性的知識庫問答實體鏈接方法包括:
使用深度學習的方法識別問題中的實體,端到端進行實體鏈接;
在候選實體生成階段,分別使用Bert特征提取網絡和BiLSTM-CRF序列標注模型進行命名實體識別生成候選實體;
在候選實體消岐階段,再使用一定的規則提取問題中關系詞并根據它與候選關系的相似性進行排序,縮短知識庫問答的時間。
2.如權利要求1所述的基于相似性的知識庫問答實體鏈接方法,其特征在于,所述基于相似性的知識庫問答實體鏈接方法具體包括:
第一步,特征提取,在Bert預訓練語言模型內部使用雙向的Transformer編碼器挖掘輸入預料的上下文信息;
第二步,候選實體生成,使用命名實體識別模型BiLSTM-CRF用來預測問題中的每一個單詞是否屬于實體提及;
第三步,候選實體生成,接入CRF層進行預測,為預測的標簽添加約束用于降低非法序列出現的概率,在CRF層中,線性鏈條件隨機場概率模型對輸入特征序列求出條件概率最大的輸出標注序列,為輸入問句的每個位置打上了標注信息;
第四步,抽取問題關系詞,使用自然語言處理工具NLTK對用戶問題進行分詞及詞性標注,跳過對計算相似性沒有價值的疑問代詞、形容詞和副詞,然后選取問題中名詞和動詞組成問題關系詞;
第五步,候選實體消岐,通過計算問題關系詞和候選關系的相似性來對候選實體進行排序,進行實體消岐;
第六步,實體排序,根據相似性sim(x,y)的高低對候選關系進行排序,相似性由字符串相似性和語義相似性共同組成,計算公式如下,取排名靠前的候選關系進行實驗,實體排序篩選出與正確實體類型不同的噪聲數據,縮小候選實體的范圍,
sim(x,y)=0.5sim1+0.5sim2。
3.如權利要求2所述的基于相似性的知識庫問答實體鏈接方法,其特征在于,所述第二步中,將特征矩陣輸入到雙向的LSTM層中,進一步提取上下文的語義關聯信息,使用每個時間步上的隱藏層狀態,在每個時間步上分別將正向和反向LSTM的隱藏層狀態進行拼接得到向量序列
4.如權利要求2所述的基于相似性的知識庫問答實體鏈接方法,其特征在于,所述第三步中,通過對輸出標注序列的統計,定位出實體的起止位置;對于給定的序列x輸出對應的標注序列y的得分s(x,y)為:
式中A為輸出的分數矩陣,p[yi-1,yi]表示輸出標簽的轉移得分值,n為問題中的單詞數。
5.如權利要求2所述的基于相似性的知識庫問答實體鏈接方法,其特征在于,所述第五步中,在計算問題關系詞和候選關系相似性時,采用字符串相似度和語義相似度結合的方法,字符串相似度匹配考慮了字面相似度,字符串相似性sim1使用歐式距離相似度作為判斷依據,公式如下,式中x代表關系詞字符串,y代表候選關系字符串;
語義相似度獲取關系詞和關系語義上的匹配;語義相似性sim2通過計算余弦相似性實現,公式如下,式中x代表關系詞向量,y代表候選關系向量;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢紡織大學,未經武漢紡織大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010981857.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種預制梁梁底調坡器
- 下一篇:一種一次性使用血液處置用管路





