[發明專利]一種基于知識圖譜的問答方法有效
| 申請號: | 201710858596.2 | 申請日: | 2017-09-21 |
| 公開(公告)號: | CN107748757B | 公開(公告)日: | 2021-05-07 |
| 發明(設計)人: | 胡春明;許程;賀薇;張日崇 | 申請(專利權)人: | 北京航空航天大學 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F16/33;G06F40/295;G06F40/242 |
| 代理公司: | 北京中創陽光知識產權代理有限責任公司 11003 | 代理人: | 尹振啟 |
| 地址: | 100191*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 知識 圖譜 問答 方法 | ||
1.一種基于知識圖譜的問答方法,其特征在于,所述方法包括以下步驟:
步驟1:用戶輸入自然語言問句,經過字符串預處理;
步驟2:通過命名實體模塊獲得問句中的命名實體詞;
步驟3:通過實體鏈接模塊,利用命名實體詞查詢別名詞典,返回候選實體及其根據知名度的排名;所述返回候選實體及其根據知名度的排名的具體方式為知識庫中存在每個實體實例及其對應的名字和別名,獲取別名信息,反向構建別名字符串到實體實例的詞典用于實體鏈接,構建詞典時對別名字符串進行統一化處理,通過獲取實體在知識庫中出現的頻率作為知名度對別名詞典中的實體進行排序,經過命名實體識別得到命名實體詞后,使用命名實體詞在別名詞典中查找得到候選實體,并且根據實體的知名度的排名選出候選實體;
步驟4:得到使用實體類型代替命名實體詞的問句模式(pattern),經過關系匹配模型匹配得到問句所表達語義的知識庫中的候選關系及其得分;所述關系匹配模型匹配得到問句所表達語義的知識庫中的候選關系具體方式為關系匹配模型通過自然語言理解技術理解問句q所表達的語義,并且與搜索空間中三元組(s,p,o)中的關系p進行匹配,以此確定問句所表達的語義及其與知識庫中對應的關系;
步驟5:找到候選實體和候選關系后,根據關系得分和實體排序,及其在知識庫中的查找確定答案。
2.如權利要求1所述的方法,其特征在于,主題實體匹配包括命名實體識別模塊和實體鏈接模塊兩個部分,命名實體識別模塊識別自然語言問句q中人名、地名、組織機構名命名實體,實體鏈接模塊將識別出的命名實體對應到知識庫中的某一個實體上,即找到三元組中的實體s,通過命名實體識別模塊和實體鏈接模塊得到候選實體,關系匹配得到候選關系,由此得到若干候選三元組,最后根據實體識別得分,關系匹配得分特征對候選三元組進行排序,確定最后答案。
3.如權利要求2所述的方法,其特征在于,所述命名實體識別模塊采用基于字符和單詞級別的GRU-CRF(融合條件隨機場的循環神經網絡)模型來識別問句q中的命名實體詞,所述GRU-CRF(融合條件隨機場的循環神經網絡)模型中使用單詞級別的向量和字符級別的向量相結合來共同構造詞向量,作為序列標注模型的輸入。
4.如權利要求3所述的方法,其特征在于,所述字符級別的單詞向量表示分別通過單詞每個字符正序輸入的正向RNN(循環神經網絡)和逆序輸入的反向RNN(循環神經網絡)最后時刻輸出的向量經過拼接成為整個單詞的字符級別向量表示,字符表中每個字符的初始向量隨機進行初始化。
5.如權利要求2所述的方法,其特征在于,所述關系匹配是通過語義理解找到與問句語義相匹配的知識庫中三元組中的關系,使用了一個基于注意力機制的序列到序列模型,這個模型具體是由一個兩層的LSTM(長短期記憶網絡)編碼器和一個有注意力機制的LSTM(長短期記憶網絡)解碼器組成,在所述解碼器中,使用主題實體類型替代占位符“e”。
6.如權利要求2所述的方法,其特征在于,確定答案的過程為給定一個問句q,經過命名實體識別和實體鏈接得到候選實體集合E及每個候選實體e∈E的得分,使用其中每個候選實體的類型信息及問句q經過序列到序列模型得到候選關系集合P及每個候選p∈P的得分,然后先選擇得分最高的pi,再選擇其對應的{e1,e2,…,en}中得分最高的ei,以此確定三元組的前兩元(s,p,?),然后去知識庫中根據s和p查找,得到答案集合{oi}。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京航空航天大學,未經北京航空航天大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710858596.2/1.html,轉載請聲明來源鉆瓜專利網。





