[發明專利]基于問題生成的知識庫問答系統及裝置在審
| 申請號: | 202010902568.8 | 申請日: | 2020-09-01 |
| 公開(公告)號: | CN112015915A | 公開(公告)日: | 2020-12-01 |
| 發明(設計)人: | 車萬翔;喬振浩;趙妍妍;劉挺 | 申請(專利權)人: | 哈爾濱工業大學 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F16/332;G06F16/31;G06F40/186;G06F40/289;G06F40/30 |
| 代理公司: | 哈爾濱華夏松花江知識產權代理有限公司 23213 | 代理人: | 岳昕 |
| 地址: | 150001 黑龍*** | 國省代碼: | 黑龍江;23 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 問題 生成 知識庫 問答 系統 裝置 | ||
基于問題生成的知識庫問答系統及裝置,涉及一種自動問答系統。為了解決基于知識圖譜問答方法需要具備專業知識的人員標注專用數據集,從而存在標注成本高、工作量大、耗費時間長的問題。本發明系統的模板數據庫用于存儲模板;三元組擴展模塊讀入三元組并將三元組解析,從模板庫中選取該關系下的全部模板;將實體替換模板中三元組相應的符號,生成句子;全文檢索模塊將用戶查詢的查詢文本進行切分,然后將切分成詞的查詢語句轉換為Lucene內部表示Query對象,并檢索出與用戶查詢相關的一組句子作為候選集;語義匹配模塊:采用基于預訓練模型Bert的語義匹配網絡對候選集進行排序,取最高分數對應的三元組作為答案返回給用戶。主要用于實現自動問答。
技術領域
本發明屬于計算機技術領域,尤其涉及一種自動問答系統。
背景技術
隨著科技的發展,自動應答機器人、系統或者語音助手得到了開速發展。基于知識圖譜的知識庫問答系統由于能夠直接回答事實類問題,滿足人們快速獲取知識的需求,越來越受到學界和工業界的重視。
知識圖譜是以三元組格式組織的數據,例如姚明國籍中國,其中姚明和中國是實體1和實體2,國籍是兩個實體間的關系。此類問答系統的輸入是一句文本查詢q,然后在知識庫中尋找與該查詢最相關的一個或一組三元組,并返回三元組中對應實體。目前主流的做法有基于關系分類的方法、基于搜索的方法與基于語義解析的方法。以基于關系分類的方法為例,這種方法首先從問句中預測出實體與關系,然后根據這兩者找出答案實體。這類方法的共同特點是需要由問句與其對應邏輯表達式數據來訓練預測模型。相比于構造知識圖譜,標注專用數據集成本較高,需要標注者掌握一定的專業知識,包括領域專業知識與查詢語言知識。數據集構造成本高的問題造成基于知識圖譜的知識庫問答系統應用受限,在缺乏訓練數據情景下無法有效利用知識圖譜構建問答系統。
發明內容
本發明是為了解決基于知識圖譜問答方法需要具備專業知識的人員標注專用數據集,從而存在標注成本高、工作量大、耗費時間長的問題。
基于問題生成的知識庫問答系統,包括:
模板數據庫:存儲模板;所述模板是針對知識庫使用場景編寫的用于擴展三元組語義信息的json格式的文本文件;
三元組擴展模塊:讀入三元組并將三元組解析為實體1、關系、實體2的形式;然后從模板庫中選取該關系下的全部模板;將實體1和實體2替換模板中三元組相應的符號,生成句子;
全文檢索模塊:首先利用分詞工具將用戶查詢的查詢文本進行切分,然后使用QueryParser類將切分成詞的查詢語句轉換為Lucene內部表示Query對象;最后通過Lucene提供的IndexSearcher接口檢索出與用戶查詢相關的一組句子作為候選集;
語義匹配模塊:采用基于預訓練模型Bert的語義匹配網絡對候選集進行排序;所采用的語義匹配模型中,輸入為用戶查詢的查詢文本與檢索的候選集;分類標簽對應的輸出向量經SoftMax層取得語義匹配分數;候選集文本全部通過語義匹配模型計算得到分數后,由高到低進行排序,取最高分數對應的三元組作為答案返回給用戶。
進一步地,所述全文檢索模塊中是基于全文索引實現查詢文本的查詢過程,構建全文索引時,首先利用分詞工具進行分詞處理,切分后的詞送入Lucene索引創建倒排索引;創建倒排索引時,首先創建Lucene文檔對象Document,文檔對象Document對應通過模板擴展生成的句子;然后在Lucene的文檔對象中添加Field對象;創建Field實例的參數為為經過分詞處理后的句子與生成該句所使用的三元組;全部處理完成后,將創建好的索引進行存儲。
進一步地,將創建好的索引進行存儲是使用IndexWriter實現的,即使用IndexWriter將創建好的索引進行存儲。
進一步地,利用分詞工具將用戶查詢的查詢文本進行切分過程所述分詞工具與構建全文索引時利用的分詞工具相同。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱工業大學,未經哈爾濱工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010902568.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:移動場景中基于能效優先的協作感知節點選取方法
- 下一篇:一種多功能衛浴柜





