[發明專利]一種基于XLNet-BiGRU-CRF的智能問答方法在審
| 申請號: | 202110913182.1 | 申請日: | 2021-08-10 |
| 公開(公告)號: | CN113641809A | 公開(公告)日: | 2021-11-12 |
| 發明(設計)人: | 劉大偉;胡笳;車少帥;張邱鳴;張瑋 | 申請(專利權)人: | 中電鴻信信息科技有限公司 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F40/169;G06F40/205;G06F40/295;G06F40/30;G06N3/04 |
| 代理公司: | 南京鐘山專利代理有限公司 32252 | 代理人: | 王磊 |
| 地址: | 210000 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 xlnet bigru crf 智能 問答 方法 | ||
本發明公開了一種基于XLNet?BiGRU?CRF的智能問答方法,包括步驟:訓練XLNet中文模型;獲取語料數據;構建XLNet?BiGRU?CRF神經網絡模型并訓練;對待識別的用戶問題的文本內容進行實體識別;根據實體識別結果提取數據庫中具有對應實體的若干相關問題,將用戶問題分別與若干相關問題作Embedding句向量余弦相似度比較,將相似度得分最大的相關問題的答案作為目標結果,同時將相似度分數排名第二和第三的相關問題提供給用戶作為相似問題供用戶參考。本發明利用訓練完成的模型對用戶問題的文本語料進行處理,并結合知識圖譜檢索方法能夠更加快速、精準地得到問題答案。
技術領域
本發明屬于智能問答技術領域,具體涉及一種基于XLNet-BiGRU-CRF的智能問答方法。
背景技術
近年來,隨著大數據和人工智能技術的發展,問答系統已經應用于各行各業,而問答系統也成為智能機器人的一個關鍵組成部分,影響著機器人與人交流的重要環節。
傳統的問答系統,一般是基于關鍵詞檢索,沒有考慮到問題的語義信息?;谥R圖譜的問答系統,會對提問者提出的具體問題的文本進行在線分析處理,隨后進行檢索以輸出最匹配的答案,從而快速得到對問題的準確回答。知識圖譜一般以三元組格式儲存數據,例如“高等數學出版社武漢大學出版社”,其中“高等數學”和“武漢大學出版社”分別是兩個實體,“出版社”是兩個實體間的關系。此類問答系統的輸入是一句文本查詢,然后在知識庫中尋找與該查詢最相關的一個或一組三元組,并返回三元組中對應的實體。
目前的主流方法有:基于關系分類的方法、基于搜索的方法和基于語義解析的方法。以基于關系分類的方法為例,這種方法首先從問句中預測出實體與關系,然后根據這兩者找出答案實體。這類方法的共同特點是需要由問句與其對應的邏輯表達式數據來訓練預測模型,相比于構造知識圖譜,標注專用數據集成本較高,需要標注者掌握一定的專業知識,包括領域專業知識與查詢語言知識。而基于語義分析的方法,在邏輯表達式和自然語言語義之間存在障礙。同時常用模型如CNN、LSTM等,相比于BERT、XLNet(GeneralizedAutoregressive Pretraining for Language Understanding)等前沿模型,其模型訓練效果、準確度較差,缺少對問題文本內部的字或詞之間的相關性分析。
發明內容
本發明針對現有技術中的不足,提供一種基于XLNet-BiGRU-CRF的智能問答方法,為實現上述目的,本發明采用以下技術方案:
一種基于XLNet-BiGRU-CRF的智能問答方法,包括以下步驟:
步驟1:基于大規模無標注語料訓練XLNet中文模型,所述XLNet模型包括排列語言模型、雙流注意力機制和Transformer-XL核心組件;
步驟2:獲取用于構建知識圖譜及構建命名實體識別模型的訓練語料數據,對訓練語料數據進行預處理并標注,同時將訓練語料數據經預處理后得到的三元組數據存入Neo4j數據庫,并根據步驟1中訓練好的XLNet中文模型分別提取三元組數據對應的若干問題的Embedding句向量一并存入Neo4j數據庫;所述三元組由問題實體、問題屬性、答案組成;
步驟3:基于步驟1訓練好的XLNet中文模型構建XLNet-BiGRU-CRF神經網絡模型,并利用步驟2中標注完成的訓練語料數據訓練XLNet-BiGRU-CRF模型;
步驟4:利用訓練完成的XLNet-BiGRU-CRF模型對待識別的用戶問題的文本內容進行實體識別,得到實體識別結果;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中電鴻信信息科技有限公司,未經中電鴻信信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110913182.1/2.html,轉載請聲明來源鉆瓜專利網。
- 基于Smi2Vec的BiGRU藥物毒性預測系統及預測方法
- 基于RoBERTa-BiGRU-LAN模型的中文命名實體識別方法及裝置
- 一種基于ERNIE-BiGRU的中文文本分類方法
- 基于深度學習的預測化合物蛋白質親和力新型編碼方案、計算機設備、存儲介質
- 一種基于BiGRU的智能電表計量模塊故障預測與診斷方法
- 基于邊緣注意力機制的預測化合物蛋白質親和力方法、計算機設備、存儲介質
- 一種預測化合物蛋白質親和力的新型深度學習模型、計算機設備、存儲介質
- 基于單獨注意力機制的預測化合物蛋白質親和力方法、計算機設備、存儲介質
- 一種基于ATAE-BiGRU的文本方面情感分類方法及系統
- 一種基于自注意力機制和BiGRU的文本分類方法





