[發明專利]測試語料生成方法、裝置、設備及可讀寫存儲介質有效
| 申請號: | 201810437036.4 | 申請日: | 2018-05-09 |
| 公開(公告)號: | CN108597503B | 公開(公告)日: | 2021-04-30 |
| 發明(設計)人: | 楊博昌;黃燕;施展 | 申請(專利權)人: | 科大訊飛股份有限公司 |
| 主分類號: | G10L15/06 | 分類號: | G10L15/06;G10L15/18;G10L15/197 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 王雨;王寶筠 |
| 地址: | 230031 安徽*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 測試 語料 生成 方法 裝置 設備 讀寫 存儲 介質 | ||
本申請公開了一種測試語料生成方法、裝置、設備及可讀寫存儲介質,方法包括:獲取人機交互場景下的歷史用戶交互語料;對每條所述歷史用戶交互語料進行語義解析,確定每條所述歷史用戶交互語料的組成方式;根據各條歷史用戶交互語料的組成方式,確定每一種組成方式的出現概率;參考每一種組成方式的出現概率,逐條生成測試語料。由于本申請是依據歷史用戶交互語料所確定的每種語料組成方式的出現概率,并基于該出現概率逐條生成測試語料,能夠真實模擬用戶與機器交互過程,生成足夠多的測試語料,保證人機交互系統的測試結果的準確性和可靠性。
技術領域
本申請涉及自然語言理解技術領域,更具體地說,涉及一種測試語料生成方法、裝置、設備及可讀寫存儲介質。
背景技術
隨著人工智能相關技術的不斷提高,自然語言理解交互的方式越來越復雜。為了更加方便用戶,在多種業務場景下引入了人機交互系統。常見的如車載業務場景、音樂業務場景等。
以車載業務場景為例,人機交互過程如下:
用戶:導航到科大訊飛
機器:您打算從哪出發?
用戶:從三里庵出發
按照這種交互過程,車載地圖終端即會自動為用戶提供從科大訊飛到三里庵的導航服務,無需用戶操作終端選定起始位置、目標位置等,極大方便了用戶的使用。
人機交互系統在上線服務之前,需要經過測試,以檢查人機系統對用戶輸入語料的語義理解是否準確。但是,用戶收集到的實際訓練語料數量有限,訓練語料覆蓋度不足,導致人機交互系統測試結果失真,測試結果不可靠。
發明內容
有鑒于此,本申請提供了一種測試語料生成方法、裝置、設備及可讀寫存儲介質,用于解決現有測試語料不足,導致人機交互系統測試結果失真,不可靠的問題。
為了實現上述目的,現提出的方案如下:
一種測試語料生成方法,包括:
獲取人機交互場景下的歷史用戶交互語料;
對每條所述歷史用戶交互語料進行語義解析,確定每條所述歷史用戶交互語料的組成方式;
根據各條歷史用戶交互語料的組成方式,確定每一種組成方式的出現概率;
參考每一種組成方式的出現概率,逐條生成測試語料。
優選地,所述對每條所述歷史用戶交互語料進行語義解析,確定每條所述歷史用戶交互語料的組成方式,包括:
對每條所述歷史用戶交互語料進行語義解析,確定每條所述歷史用戶交互語料所屬的業務;
所述根據各條歷史用戶交互語料的組成方式,確定每一種組成方式的出現概率,包括:
根據各條歷史用戶交互語料所屬的業務,確定每一種業務的出現概率。
優選地,所述根據各條歷史用戶交互語料所屬的業務,確定每一種業務的出現概率,包括:
針對每一種業務,計算屬于所述業務的歷史用戶交互語料的條數,與歷史用戶交互語料總條數的比值,作為所述業務的出現概率。
優選地,所述對每條所述歷史用戶交互語料進行語義解析,確定每條所述歷史用戶交互語料的組成方式,還包括:
對每條所述歷史用戶交互語料進行語義解析,確定每條所述歷史用戶交互語料對應的操作;
所述根據各條歷史用戶交互語料的組成方式,確定每一種組成方式的出現概率,還包括:
根據各條歷史用戶交互語料所屬的業務及對應的操作,確定每一種操作在同一業務下的出現概率。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于科大訊飛股份有限公司,未經科大訊飛股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810437036.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:基于對抗訓練的領域語音識別訓練方法
- 下一篇:一種語音解析方法、裝置及機器人





