[發明專利]一種基于機器閱讀理解的智能問答交互方法及系統在審
| 申請號: | 202011184803.9 | 申請日: | 2020-10-30 |
| 公開(公告)號: | CN112035652A | 公開(公告)日: | 2020-12-04 |
| 發明(設計)人: | 朱宇 | 申請(專利權)人: | 杭州云嘉云計算有限公司 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F16/33;G06F16/35;G06F40/289 |
| 代理公司: | 杭州杭誠專利事務所有限公司 33109 | 代理人: | 尉偉敏 |
| 地址: | 311100 浙江省杭州市余*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 機器 閱讀 理解 智能 問答 交互 方法 系統 | ||
本發明公開了一種基于機器閱讀理解的智能問答交互方法及系統,讀理解系統包括有:第一文本分詞模塊,將原始文本分割為以詞、字為單位的序列;統計挖掘模塊、數據轉譯模塊、數據分層模塊、向量表征模塊、第一模型訓練模塊以及統計規則挖掘模塊;法條推送系統包括有:第二文本分詞模塊、新詞發現模塊以及第二模型訓練模塊。交互方法包括如下步驟:將原始文本和提問文本分別輸入到閱讀理解系統和法條推送系統;原始文本和提問文本均為默認為中文文本;對輸入的原始文本和提問文本進行預處理;將預處理后的文本輸入到模型訓練模塊中進行訓練;輸出預測結果。通過搭建智能問答交互系統,提高司法領域的公共服務能力,降低人工客服成本。
技術領域
本發明涉及計算機自然語言處理以及自動問答技術領域,具體的,涉及一種基于機器閱讀理解的智能問答交互方法及系統。
背景技術
閱讀理解任務是指讓機器能夠閱讀并理解文檔中的信息,是自然能語言處理的一個重要任務,隨著深度學習技術的崛起,在最近幾年成為學術和工業界的熱點,并在智能客服、自動問答方面有了廣泛的應用。
訓練機器去閱讀理解,重要的是建立一種機器學習模型,通過給定的文本數據和答案進行算法訓練,從而在文本片段中找出問題的答案。與一般單句處理的任務不同,機器閱讀理解任務更注重于對篇章文本的理解,模型必須能從中學習到某種基于文本到結果的推理關系,而不是利用預設好的人為知識來回答多種多樣的問題,因此更具挑戰性。
閱讀理解任務的模型對數據集要求較高,其不僅需要一段描述性文本,還需要針對該文本的問題和對應答案,這使得數據收集就具備挑戰性。最早提出的SQUAD和CNN/Daily mail等數據集,提供了大量監督數據。這些數據集一般是一篇文檔與一個問題成對提供,在此之上研究出了BIDAF,SAN等優秀的閱讀理解模型。然而針對同個描述性文本,問法可能多種多樣,因此這種數據集與現實種的場景還有不小的差距。之后SQUAD2.0數據集提供了一篇文檔多個問題對應,成為新的模型提出時的效果檢驗標準,并在此基礎上出現了基于Bert的閱讀理解模型,并且已表現出學習通用信息的能力。但是這樣較為通用的數據集為英語語言使用,對于中文語言的數據集和一種好的閱讀理解模型卻非常稀缺。
現有的閱讀理解模型存在以下不足:
(1)只能處理有無問題
一般的閱讀理解模型因為建立在現有公開數據集上,因此在預測時,只能預測為是否找到答案,如果找到,則會返回找到的文本片段,如果沒找到,則返回為空;
(2)對數據獲取成本大
因為閱讀理解模型對訓練數據依賴程度較高,因此有一份規模較大的數據集,訓練的模型也能趨向于更為精準。但是閱讀理解模型的中文數據不僅稀缺,且標注成本高;
(3)不具備統計知識發掘
在閱讀理解任務中,不同的問答所表示的量化特征,可能對應的是同一答案,如果直接進行模型訓練,會加深模型的混淆度;
閱讀理解模型在人機交互方面以及智能問答領域應用廣泛,針對司法領域的智能問答系統,可以將閱讀理解系統和法條推送系統相結合,可以提高公共服務能力,減少人工交互成本,然而,傳統的法條推送系統是基于人為規則知識,在法條推送系統中,一般以問題的關鍵詞、句相似度等方式與數據庫已存問題答案對進行匹配搜索,這種方式雖然簡單直觀,但是人為寫入關鍵詞和規則耗時較長,且效果不易直接體現。
發明內容
本發明的目的是解決解決傳統閱讀理解模型的識別精度低、訓練數據成本高的問題。一種基于機器閱讀理解的智能問答交互方法及系統,將多種最優子模型進行融合,增強識別準確度,并減少數據獲取成本,將閱讀理解系統與法條推送系統結合,搭建智能問答交互系統,可提高司法領域的公共服務能力,降低人工客服成本。
發明提供的一種技術方案是,一種基于機器閱讀理解的智能問答交互方法,包括如下步驟:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州云嘉云計算有限公司,未經杭州云嘉云計算有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011184803.9/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:多功能公共座椅
- 下一篇:一種可淡斑的面膜配方及其制備方法





