[發明專利]一種問答系統評價方法和裝置有效
| 申請號: | 201710265734.6 | 申請日: | 2017-04-21 |
| 公開(公告)號: | CN108733712B | 公開(公告)日: | 2021-03-30 |
| 發明(設計)人: | 林江華 | 申請(專利權)人: | 北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06Q10/06 |
| 代理公司: | 中原信達知識產權代理有限責任公司 11219 | 代理人: | 張一軍;姜勁 |
| 地址: | 100195 北京市海淀區杏石口路6*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 問答 系統 評價 方法 裝置 | ||
本發明涉及一種問答系統評價方法、裝置、電子設備和可讀存儲介質。其中所述問答系統評價方法包括:根據用戶輸入,通過邀評概率計算搜集測試語料;利用所述測試語料,通過聚類對問答系統進行測試;根據測試結果更新知識庫。
技術領域
本發明涉及計算機領域,尤其涉及一種問答系統評價方法、裝置、電子設備和可讀存儲介質。
背景技術
在人機交互過程中通常需要使用問答系統(Question Answer System,QA)。問答系統又稱人機對話系統(Human-machine conversation,HMC),是指這樣的一個機器系統:能夠對于用戶通過自然語言輸入的問句,給出簡潔、準確、人性化的回答,這種回答通常是指一小段文本。
現有的問答系統,大致可以分為:聊天機器人、基于知識庫的問答系統、問答式檢索系統、基于自由文本的問答系統等。基于知識庫的問答系統為擁有一個或多個知識庫,并利用檢索、推理等技術,來理解與求解用戶問題的問答系統,也被稱為基于知識庫的智能問答系統。
在對基于知識庫的智能問答系統進行評價時,準確率、召回率是目前廣泛應用于問答系統的兩個度量值,用來評價問答系統的質量。其中準確率是回答正確問題數與回答上的問題總數的比率,衡量的是問答系統的查準率;召回率是指回答正確問題數和測試集中所有正確回答問題數的比率,衡量的是問答系統的查全率。其定義為:
正確率=回答正確問題條數/回答上的問題總數
召回率=回答正確問題條數/測試集中所有正確回答問題數
其中,兩者取值在0和1之間,數值越接近1,查準率或查全率就越高。
現有技術中的問答系統評價方法主要有人工標注和用戶評價兩種,其中,
人工標注的步驟為:
1.通過網絡搜索或聊天記錄提取等方式,生成待測試集;
2.利用問答系統回答測試問題集中的問題,將答案附加到對應問題后,形成待標注數據;
3.標注人員對步驟2中生成的待標注數據進行判別,標注每個答案為正確或錯誤;
4.利用步驟3中的數據計算準確率和召回率。
用戶評價系統的步驟為:
1.用戶使用問答系統進行提問;
2.展示完問題后,向用戶發送評價邀請,由其選擇問題答案是否正確;
3.若步驟2中用戶進行了選擇,則將本次會話和用戶選擇進行記錄;
4.利用步驟3中的數據計算準確率和召回率。
現有技術的方案中存在如下缺點:
1.在每次知識庫調整后均需重新生成測試集;
2.標注人員在短時間內處理大量數據,可能因個人主觀意圖等因素引入錯誤;
3.邀評場景可能存在多輪問答,無法準確判斷用戶的評價針對哪個問答對;
4.邀評用戶可能因個人主觀意圖、情緒因素等對問答效果進行錯誤評判;
5.僅判斷問題和答案,無法排除由于知識庫編寫質量較差而導致不匹配的情況,給問答系統的評測帶來額外因素。
發明內容
有鑒于此,本發明實施例提供一種問答系統評價方法、裝置、電子設備和可讀存儲介質,能夠提供一種更節省人工、準確率更高的測試集生成方式;排除由于知識庫編寫質量造成的評測異常;并且測試集可隨時、自動地更新,并能被應用于現有的問答系統評價體系中。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司,未經北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710265734.6/2.html,轉載請聲明來源鉆瓜專利網。





