[發明專利]自動問答方法、裝置、電子設備和存儲介質有效
| 申請號: | 201910584837.8 | 申請日: | 2019-07-01 |
| 公開(公告)號: | CN110309285B | 公開(公告)日: | 2022-03-29 |
| 發明(設計)人: | 郭建廷;岳聰 | 申請(專利權)人: | 出門問問信息科技有限公司 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F16/35;G06F40/289;G06F40/295 |
| 代理公司: | 北京睿派知識產權代理事務所(普通合伙) 11597 | 代理人: | 劉鋒 |
| 地址: | 100190 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 自動 問答 方法 裝置 電子設備 存儲 介質 | ||
公開了一種自動問答方法、裝置、電子設備和存儲介質。通過預訓練的分類模型和分類規則判斷待分類問題是否屬于疊字類問題,進而在疊字信息數據庫中獲取疊字類問題的答案。由此,可以較為準確地確定識別疊字類問題,提高獲取疊字類問題答案的準確性和減少獲取答案的時間。
技術領域
本發明涉及問答系統領域,尤其涉及一種自動問答方法、裝置、電子設備和存儲介質。
背景技術
疊字是漢字中以多個完全相同的字組成的一類字,疊字中重復的漢字為重復單字,疊字中重復單字的個數為重復次數。例如,“森”是一個疊字,它的重復單字是“木”,重復次數是“三”。疊字類問題是能夠從問題中解析出重復單字以及重復單字的重復次數,并且問題的答案是一個疊字的問題。例如,“三個木是什么字?”、“四個火焰的火組成的字是什么?”以及“眾是由幾個人組成?”等。
問答系統(Question Answer,QA)是信息檢索系統的一種高級形式,能夠用準確、簡潔的自然語言回答用戶用自然語言提出的問題。
在現有的問答系統中,由于對于識別疊字類問題的算法設置比較簡單,使得系統并不能較為準確地、快速地識別疊字類問題。如果不是疊字類的問題被錯誤識別為疊字類問題,則會進行之后解析問題的流程,可能會造成回答錯誤或者使問答系統給出回答的時間變長。
發明內容
有鑒于此,本發明的目的在于提供一種自動問答方法、裝置、電子設備和存儲介質,可以較為準確地確定識別疊字類問題,提高獲取疊字類問題答案的準確性和減少獲取答案的時間。
第一方面,本發明實施例公開了一種自動問答方法,所述方法包括:
獲取待分類問題;
通過預訓練的分類模型和分類規則確定所述待分類問題的類別,所述類別包括疊字類問題和非疊字類問題;以及
響應于所述待分類問題的類別為疊字類問題,在疊字信息數據庫中獲取所述疊字類問題的答案;
其中,所述分類模型的訓練過程為:
獲取第一訓練集,所述第一訓練集包括多個疊字類問題和對應的第一標簽;
獲取第二訓練集,所述第二訓練集包括多個非疊字類問題和對應的第二標簽;以及
根據所述第一訓練集和所述第二訓練集按照機器學習算法訓練獲取分類模型。
優選地,所述分類規則包括待分類問題的文本信息的最大字數閾值、最小字數閾值、相同字符的重復次數、實體人名包含狀態和英文字母包含狀態中的至少一種。
優選地,所述機器學習算法為最大熵算法、支持向量機算法或者神經網絡分類算法。
優選地,所述疊字信息數據庫包括多個疊字的信息,所述疊字的信息包括重復次數、重復單字和目標疊字。
優選地,根據所述分類模型和分類規則確定待分類問題的類別包括:
根據所述分類規則對所述待分類問題進行篩選;以及
根據所述分類模型對篩選后的待分類問題分類確定所述待分類問題的類別。
優選地,根據所述分類模型和分類規則確定待分類問題的類別包括:
根據所述分類模型對待分類問題分類確定所述待分類問題的類別;以及
根據所述分類規則對分類后的待分類問題進行篩選。
優選地,根據所述分類模型和分類規則確定待分類問題的類別包括:
根據分類模型獲取待分類問題的第一概率,所述第一概率為所述待分類問題為疊字類問題的概率;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于出門問問信息科技有限公司,未經出門問問信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910584837.8/2.html,轉載請聲明來源鉆瓜專利網。





