[發明專利]生成口語考試參考答案的方法及系統有效
| 申請號: | 201310332699.7 | 申請日: | 2013-08-02 |
| 公開(公告)號: | CN104347071B | 公開(公告)日: | 2020-02-07 |
| 發明(設計)人: | 劉丹;魏思;陳進;胡郁;劉慶峰 | 申請(專利權)人: | 科大訊飛股份有限公司 |
| 主分類號: | G10L15/26 | 分類號: | G10L15/26;G06F16/33;G06F16/35 |
| 代理公司: | 11252 北京維澳專利代理有限公司 | 代理人: | 王立民;吉海蓮 |
| 地址: | 230088 安徽省*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 生成 口語 考試 參考答案 方法 系統 | ||
本發明涉及語音信號處理技術領域,公開了一種生成口語考試參考答案的方法及系統。該方法包括:獲取考生答題語音數據;對所述考生答題語音數據進行語音識別,獲得考生答題文本;根據所述考生答題文本生成參考答案樣本。利用本發明,可以基于實際考生答題語音數據自動生成參考答案,并提高參考答案的覆蓋度。
技術領域
本發明涉及語音信號處理技術領域,具體涉及一種生成口語考試參考答案的方法及系統。
背景技術
作為人際交流的重要媒介,口語語言在實際生活中占有極其重要的地位。隨著社會經濟的不斷發展和全球化趨勢的加劇,人們對語言學習的效率以及語言評估的客觀性、公正性和規模化測試提出了越來越高的要求。而半開放式題型,如問答題或限定內容表述題等,實際考察了考生交流及表述能力,因而也成為口語考試的重點內容。在對半開放式題型的評測中,考生對考題內容表述的準確度或與參考答案一致度是評價答題水平的重點指標。相應的參考答案的質量及完善程度是實現半開放題型客觀評價的關鍵所在。
傳統半開放題型通常由專家人工編輯獲得參考答案。一般來說為了保證參考答案盡可能覆蓋大多數考生的正確表述,需要制作盡可能完善的參考答案表述方式,實際操作時常采用多位專家(通常30位左右)對同一考題分別獨立編寫答案并最后匯總獲得相應考題的參考答案。
半開放題型答案由于表述方式多種多樣,基于少數專家人工制作答案的方式顯然無法滿足參考答案多樣化和完善化的需求,依然無法避免因參考答案覆蓋度問題導致表述準確程度評分不當的現象。此外由于年齡、文化程度等差異,試卷制作人員提供的表述方式往往和考生實際可能的表述方式也存在較大差異,和實際應用需求存在一定的差距。進一步地,由于缺乏有效的檢查手段客觀評價試卷制作人員提供參考答案的質量,從而影響了口語評分的有效性。
發明內容
本發明實施例提供一種生成口語考試參考答案的方法及系統,能夠基于實際考生答題語音數據自動生成參考答案,并提高參考答案的覆蓋度。
為此,本發明提供如下技術方案:
一種生成口語考試參考答案的方法,包括:
獲取考生答題語音數據;
對所述考生答題語音數據進行語音識別,獲得考生答題文本;
根據所述考生答題文本生成參考答案樣本。
優選地,所述根據所述考生答題文本生成參考答案樣本包括:
對所述考生答題文本聚類,得到所述考生答題文本的數據子類,每個數據子類包含至少一個考生答題文本;
確定所述數據子類中可以作為參考答案的有效子類;
選擇所述有效子類中的考生答題文本作為參考答案樣本。
優選地,所述對所述考生答題文本聚類,得到所述考生答題文本的數據子類包括:
將每個考生答題文本作為一個數據子類;
依次計算兩個數據子類間的距離,并合并具有最小距離的兩個數據子類得到新合并的數據子類,直到滿足預設的聚類結束條件;
將聚類結束后得到的數據子類作為所述考生答題文本數據的數據子類。
優選地,所述計算兩個數據子類間的距離包括:
分別提取兩個數據子類的文本特征矢量;
計算兩個文本特征矢量的余弦距離,并將所述余弦距離作為所述兩個數據子類間的距離。
優選地,所述提取數據子類的文本特征矢量包括:
提取所有考生答題文本中的主題詞;
計算所述主題詞的逆文檔概率;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于科大訊飛股份有限公司,未經科大訊飛股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310332699.7/2.html,轉載請聲明來源鉆瓜專利網。





