[發明專利]一種基于機器閱讀理解的智能問答交互方法及系統在審
| 申請號: | 202011184803.9 | 申請日: | 2020-10-30 |
| 公開(公告)號: | CN112035652A | 公開(公告)日: | 2020-12-04 |
| 發明(設計)人: | 朱宇 | 申請(專利權)人: | 杭州云嘉云計算有限公司 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F16/33;G06F16/35;G06F40/289 |
| 代理公司: | 杭州杭誠專利事務所有限公司 33109 | 代理人: | 尉偉敏 |
| 地址: | 311100 浙江省杭州市余*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 機器 閱讀 理解 智能 問答 交互 方法 系統 | ||
1.一種基于機器閱讀理解的智能問答交互方法,其特征在于:包括如下步驟:
將原始文本和提問文本分別輸入到閱讀理解系統和法條推送系統;
對輸入的原始文本和提問文本進行預處理;
將預處理后的文本輸入到模型訓練模塊中進行訓練;
輸出預測結果。
2.根據權利要求1所述的一種基于機器閱讀理解的智能問答交互方法,其特征在于:對輸入的原始文本和提問文本進行預處理包括如下步驟:
采用第一文本分詞模塊將原始文本分割為以詞、字為單位的序列;
采用第二文本分詞模塊將提問文本分割為以詞、字為單位的序列;
采用統計挖掘模塊通過詞替換、字替換、調整順序、正則發掘的方式對序列的字輸出、詞輸出進行調整;
采用數據轉譯模塊對原始文本和提問文本進行數據擴充;
將擴充后的數據經過數據分層模塊劃分為訓練集和驗證集;
通過向量表征模塊對文本分詞后的字輸出和詞輸出以向量方式表示;
將向量表征模塊輸出的向量數據導入第一模型訓練模塊進行訓練;
第一模型訓練模塊輸出預測結果;
通過統計規則挖掘模塊篩選出預測結果錯誤的數據,并將錯誤數據反饋給數據分析師。
3.根據權利要求2所述的一種基于機器閱讀理解的智能問答交互方法,其特征在于:
在第一文本分詞模塊將原始文本分割和第二文本分詞模塊將提問文本分割的過程中,介入特有名詞詞典用以在通用詞典分割不準的情況下,強制其分割準確;介入語言模型用以進行新詞發現,整和詞與詞的關系,將可能分割開的字符重新拼接起來。
4.根據權利要求2所述的一種基于機器閱讀理解的智能問答交互方法,其特征在于:
采用數據轉譯模塊進行數據擴充的方法包括如下步驟:
將原始文本和提問文本轉譯為至少一種外國語文本;
將外國語文本數據轉譯為中文文本;
對轉換后的中文文本進行數據的標簽搜尋算法,給予轉換后的文本標簽的位置和類型,即可獲得轉譯文本,
通過答案的相似度判定和關鍵詞判定方法,決定轉譯后文本中的答案是否應作為原轉譯文本的答案。
5.根據權利要求2所述的一種基于機器閱讀理解的智能問答交互方法,其特征在于:數據分層模塊通過K折交叉法將擴充后的數據集劃分為訓練集和驗證集。
6.根據權利要求2所述的一種基于機器閱讀理解的智能問答交互方法,其特征在于:
第一模型訓練模塊進行訓練的過程中采用雙向指針,以頭指針代表答案的起始位置,尾指針代表答案的結束位置,二者的損失函數和作為最終損失函數;
在是否問題和未找到答案回答中,使用單獨的損失映射函數進行損失值表示,在訓練過程中跟隨訓練;
最后基于反向傳播進行神經網絡模型的參數更新;其中對損失函數、學習率以網格搜索的方式進行最優參數搜尋。
7.根據權利要求2或3或4或5或6所述的一種基于機器閱讀理解的智能問答交互方法,其特征在于:當提問文本中涉及到法條數據時,采用法條推送系統對提問文本進行數據處理,輸出對應法條,包括如下步驟:
導入法條詞典,作為知識數據庫;通過第二模型訓練模塊對輸入文本信息進行訓練;
對提問文本預處理生成正則語句,搜索正則語句對應的法條類,輸出對應法條;
對提問文本預處理提取提問文本中的關鍵詞對,搜索關鍵詞對對應的法條類,輸出對應法條,其中關鍵詞以人為給定、高頻詞、統計發掘方式尋找并定期更新;
對輸出問題進行意圖分類,并提出知識庫對應的意圖問題集,進行相似度搜索,并對意圖問題集進行排序輸出,用戶可以根據交互系統進行對應問題的詳細咨詢。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州云嘉云計算有限公司,未經杭州云嘉云計算有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011184803.9/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:多功能公共座椅
- 下一篇:一種可淡斑的面膜配方及其制備方法





