[發明專利]一種通過問題生成數據集構建智能問答系統的方法及設備在審
| 申請號: | 202010956043.2 | 申請日: | 2020-09-11 |
| 公開(公告)號: | CN112100351A | 公開(公告)日: | 2020-12-18 |
| 發明(設計)人: | 曹菡;梁旭超 | 申請(專利權)人: | 陜西師范大學 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F40/295;G06F40/30;G06F40/211;G06N3/04;G06N3/08;G06K9/62 |
| 代理公司: | 西安通大專利代理有限責任公司 61200 | 代理人: | 房鑫 |
| 地址: | 710119 陜西*** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 通過 問題 生成 數據 構建 智能 問答 系統 方法 設備 | ||
1.一種通過問題生成數據集構建智能問答系統的方法,其特征在于,包括以下步驟:
步驟一、構建旅游領域知識圖譜;
在知識圖譜中以“實體-屬性-屬性值”的三元組形式存放實體相關信息,當提出問題時,首先通過命名實體識別,抽取出問句中的實體,與知識圖譜進行鏈接,找到相應實體,然后利用問句信息結合提前設置好的規則模版進行實體屬性匹配,返回相應屬性值;
步驟二、對用戶提出的自然語言問句進行問句分析,對問句進行分詞以及詞向量訓練,在分詞過程中,使用jieba工具并加入提前設定的旅游領域詞典;
步驟三、利用Bert-BiLSTM+CRF模型對自然語言問句進行實體抽取;
步驟四、將抽取到的實體與知識圖譜中的實體進行匹配;若知識圖譜中有相匹配的實體則選定該實體;若知識圖譜中沒有相匹配實體則進行語義相似度計算,選取最接近實體;
步驟五、將所選實體和屬性與知識圖譜中的三元組進行匹配;
步驟六、返回相應屬性值,作為該問句的答案提供給用戶。
2.根據權利要求1所述通過問題生成數據集構建智能問答系統的方法,其特征在于,構建出的旅游領域知識圖譜利用問題生成構建問答數據集,問題生成的任務是在給定輸入答案的情況下生成相應的自然語言問題,而問答是在給定的問題中尋找合適答案的反向任務。
3.根據權利要求1所述通過問題生成數據集構建智能問答系統的方法,其特征在于,所述的步驟三首先利用Bert預訓練語言模型對單個字符進行編碼,得到單個字符對應的詞向量,接著利用BiLSTM層對輸入文本進行雙向編碼,最后將包含上下文信息的語義向量輸入CRF層進行解碼,CRF層能夠輸出概率最大的標簽序列,從而得到每個字符的類別。
4.根據權利要求1所述通過問題生成數據集構建智能問答系統的方法,其特征在于,所述的步驟四利用余弦相似度算法進行語義相似度計算,余弦相似度計算表達如下:
其中,X表示從問句中抽取出的實體,Y表示知識圖譜中的實體,n表示詞向量的維度;通過計算相似度,選取相似度最高的知識圖譜中的實體作為匹配。
5.根據權利要求1所述通過問題生成數據集構建智能問答系統的方法,其特征在于,將QG和QA模型結合起來,并借助于知識庫和文本語料庫,首先在gold數據集上聯合訓練QA和QG模型,然后利用QG模型構造的補充數據集,借助文本對QA模型進行微調。
6.根據權利要求1所述通過問題生成數據集構建智能問答系統的方法,其特征在于,步驟一所述的實體相關信息使用Python工具爬取,實體相關信息包括旅游景點、名稱、簡介、構建時間以及景區級別,對爬取到的數據進行清洗與整理,構成旅游知識圖譜。
7.一種通過問題生成數據集構建智能問答系統的裝置,其特征在于,包括:
旅游領域知識圖譜構建模塊,以“實體-屬性-屬性值”的三元組形式存放實體相關信息,當提出問題時,通過命名實體識別,抽取出問句中的實體,與知識圖譜進行鏈接,找到相應實體,再利用問句信息結合提前設置好的規則模版進行實體屬性匹配,返回相應屬性值;
自然語言問句分析模塊,用于對自然語言問句進行分詞以及詞向量訓練,在分詞過程中,使用jieba工具并加入提前設定的旅游領域詞典;
實體抽取模塊,首先利用Bert預訓練語言模型對單個字符進行編碼,得到單個字符對應的詞向量,接著利用BiLSTM層對輸入文本進行雙向編碼,最后將包含上下文信息的語義向量輸入CRF層進行解碼,CRF層輸出概率最大的標簽序列,從而得到每個字符的類別;
實體匹配模塊,將抽取到的實體與知識圖譜中的實體進行匹配;若知識圖譜中有相匹配的實體,則選定該實體;若知識圖譜中沒有相匹配實體,則通過語義相似度選取最接近實體;
答案反饋模塊,將所選實體和屬性與知識圖譜中的三元組進行匹配,返回相應屬性值,作為該問句的答案提供給用戶。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于陜西師范大學,未經陜西師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010956043.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種屋面混凝土水性防水底涂材料
- 下一篇:一種方便安裝的聯肢鋼板剪力墻
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





