[發明專利]問答系統的測試數據處理方法、裝置及終端有效
| 申請號: | 201611264727.6 | 申請日: | 2016-12-30 |
| 公開(公告)號: | CN106599317B | 公開(公告)日: | 2019-08-27 |
| 發明(設計)人: | 曾永梅;朱頻頻 | 申請(專利權)人: | 上海智臻智能網絡科技股份有限公司 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F16/33 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 張振軍;吳敏 |
| 地址: | 201803 上海市嘉*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 問答 系統 測試 數據處理 方法 裝置 終端 | ||
一種問答系統的測試數據處理方法、裝置及終端,所述方法包括:接收待測試問答系統的測試數據,每一測試數據包括測試問和其對應的期待問題,其中,所述待測試問答系統包括知識庫,所述知識庫中包括所述期待問題;對于每一測試問,生成對應的語義表達式,所述語義表達式用以表征所述測試問的語義;根據不同測試問的語義表達式之間的比較結果,對所述測試問或其對應的期待問題進行處理,以使得所述測試數據之間語義不重復。采用本發明技術方案可以優化問答系統的測試數據,進而提高對知識庫測試的準確性。
技術領域
本發明涉及數據處理技術領域,尤其涉及一種問答系統的測試數據處理方法、裝置及終端。
背景技術
隨著智能問答技術的發展,越來越多的平臺(例如,QQ、Skype、電商客服系統、MSN平臺、微信平臺、短消息服務平臺等)都在采用智能問答系統。智能問答系統可以基于用戶的問題從知識庫輸出相對應的答案。
為了保證輸出答案的準確性,現有技術一般是枚舉足夠多的測試問對智能問答系統進行測試;或者,通過人工去寫語義規則來捕捉對于同一答案的足夠多的問法。
但是,通過枚舉足夠多的測試問的方式耗時耗力;采用人工去寫語義規則的方式對寫語義規則的人(通常是知識建設人員)有比較高的要求,例如,需要了解語義規則如何編寫、有哪些語法符號、詞類名會是什么、相似度計算邏輯是什么等;而且不同的知識建設人員對語義規則的理解和寫法可能會有偏差。上述兩種方式均會導致測試問差異性大,重復性大,進而影響對知識庫測試的準確性。
發明內容
本發明解決的技術問題是如何優化問答系統的測試數據,進而提高對知識庫測試的準確性。
為解決上述技術問題,本發明實施例提供一種問答系統的測試數據處理方法,問答系統的測試數據處理方法包括:
接收待測試問答系統的測試數據,每一測試數據包括測試問和其對應的期待問題,其中,所述待測試問答系統包括知識庫,所述知識庫中包括所述期待問題;對于每一測試問,生成對應的語義表達式,所述語義表達式用以表征所述測試問的語義;根據不同測試問的語義表達式之間的比較結果,對所述測試問或其對應的期待問題進行處理,以使得所述測試數據之間語義不重復。
可選的,所述對于每一測試問,生成對應的語義表達式包括:對所述每一測試問進行分詞處理,以得到多個詞;分別對所述多個詞中的每個詞進行詞性標注處理,以得到所述每個詞的詞性信息;根據所述詞性信息對所述多個詞進行過濾處理,保留詞性信息為預設詞性的詞;判斷過濾保留的每個詞所屬的詞類,所述語義表達式包括所述過濾保留的每個詞的詞類,其中,每一詞類包括多個詞語。
可選的,采用以下方式確定不同測試問的語義表達式之間的比較結果:計算所述不同測試問的語義表達式的語義相似度;根據所述語義相似度確定所述比較結果。
可選的,所述對于每一測試問,生成對應的語義表達式還包括:在所述多個詞包含預設重點詞時,對所述預設重點詞所屬的詞類增加權重標注;其中,所述詞類包括初始權重,在計算所述不同測試問的語義表達式的語義相似度時,如果所述詞類存在權重標注,則在所述初始權重基礎上的增加所述詞類的語義權重。
可選的,所述對于每一測試問,生成對應的語義表達式還包括:在所述多個詞包含有序詞語組合時,對所述有序詞語組合所屬的多個詞類增加有序標注;其中,在計算所述不同測試問的語義表達式的語義相似度時,如果所述詞類存在有序標注,則根據所述有序標注指示的順序計算所述語義相似度。
可選的,所述根據所述詞性信息對所述多個詞進行過濾處理時,還保留權重大于設定值的詞。
可選的,所述測試數據處理方法還包括:對所述權重大于設定值的詞所屬的詞類增加疑問標注;其中,在計算所述不同測試問的語義表達式的語義相似度時,如果所述詞類存在疑問標注,則將所述語義表達式展開成為包含所述詞類和不包含所述詞類的兩個子表達式。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海智臻智能網絡科技股份有限公司,未經上海智臻智能網絡科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611264727.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種快遞運單號查詢方法及其裝置
- 下一篇:一種配電網模型數據校驗方法





