[發明專利]基于問題生成的知識庫問答系統及裝置在審
| 申請號: | 202010902568.8 | 申請日: | 2020-09-01 |
| 公開(公告)號: | CN112015915A | 公開(公告)日: | 2020-12-01 |
| 發明(設計)人: | 車萬翔;喬振浩;趙妍妍;劉挺 | 申請(專利權)人: | 哈爾濱工業大學 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F16/332;G06F16/31;G06F40/186;G06F40/289;G06F40/30 |
| 代理公司: | 哈爾濱華夏松花江知識產權代理有限公司 23213 | 代理人: | 岳昕 |
| 地址: | 150001 黑龍*** | 國省代碼: | 黑龍江;23 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 問題 生成 知識庫 問答 系統 裝置 | ||
1.基于問題生成的知識庫問答系統,其特征在于,包括:
模板數據庫:存儲模板;所述模板是針對知識庫使用場景編寫的用于擴展三元組語義信息的json格式的文本文件;
三元組擴展模塊:讀入三元組并將三元組解析為實體1、關系、實體2的形式;然后從模板庫中選取該關系下的全部模板;將實體1和實體2替換模板中三元組相應的符號,生成句子;
全文檢索模塊:首先利用分詞工具將用戶查詢的查詢文本進行切分,然后使用QueryParser類將切分成詞的查詢語句轉換為Lucene內部表示Query對象;最后通過Lucene提供的IndexSearcher接口檢索出與用戶查詢相關的一組句子作為候選集;
語義匹配模塊:采用基于預訓練模型Bert的語義匹配網絡對候選集進行排序;所采用的語義匹配模型中,輸入為用戶查詢的查詢文本與檢索的候選集;分類標簽對應的輸出向量經SoftMax層取得語義匹配分數;候選集文本全部通過語義匹配模型計算得到分數后,由高到低進行排序,取最高分數對應的三元組作為答案返回給用戶。
2.根據權利要求1所述的基于問題生成的知識庫問答系統,其特征在于,所述全文檢索模塊中是基于全文索引實現查詢文本的查詢過程,構建全文索引時,首先利用分詞工具進行分詞處理,切分后的詞送入Lucene索引創建倒排索引;創建倒排索引時,首先創建Lucene文檔對象Document,文檔對象Document對應通過模板擴展生成的句子;然后在Lucene的文檔對象中添加Field對象;創建Field實例的參數為為經過分詞處理后的句子與生成該句所使用的三元組;全部處理完成后,將創建好的索引進行存儲。
3.根據權利要求2所述的基于問題生成的知識庫問答系統,其特征在于,將創建好的索引進行存儲是使用IndexWriter實現的,即使用IndexWriter將創建好的索引進行存儲。
4.根據權利要求1、2或3所述的基于問題生成的知識庫問答系統,其特征在于,利用分詞工具將用戶查詢的查詢文本進行切分過程所述分詞工具與構建全文索引時利用的分詞工具相同。
5.根據權利要求4所述的基于問題生成的知識庫問答系統,其特征在于,所述分詞工具為哈爾濱工業大學社會計算與信息檢索研究中心研制的LTP中文自然語言處理工具。
6.根據權利要求4所述的基于問題生成的知識庫問答系統,其特征在于,所述json格式的文本文件中,json鍵值對應三元組中的關系,json值域中,alias代表共享該模板的三元組關系名,templates為具體的模板。
7.基于問題生成的知識庫問答裝置,其特征在于,所述裝置用于存儲和/或運行權利要求1至6之一所述的基于問題生成的知識庫問答系統。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱工業大學,未經哈爾濱工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010902568.8/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:移動場景中基于能效優先的協作感知節點選取方法
- 下一篇:一種多功能衛浴柜





